|
呉俊は1967年生まれ。清華大学とジョンズ・ホプキンス大学でコンピュータサイエンスの博士号を取得。元Googleシニアリサーチャー、元テンセント副社長、そしてシリコンバレーのベンチャーキャピタリストを務めた。 4月3日の夜、GetLiveライブストリームでは、コンピューター科学者で自然言語モデルの専門家であるWu Jun氏を招き、人工知能やChatGPTなどのホットな話題についての洞察を共有しました。 ChatGPTの出現がなぜパニックを引き起こしたのか?ChatGPTは最近中国で話題になっており、多くの人が議論しています。しかし興味深いことに、米国ではあまり話題になっていません。実はChatGPTに限った話ではなく、10年前、多くの新しい技術が登場した当時を振り返ると、中国メディアの議論のレベルは米国をはるかに上回っていました。この技術は主に米国で生まれたにもかかわらず、中国人の関心ははるかに高かったのです。これは良い面と悪い面の両方があると思います。 問題は、これらの技術が過大評価され、多くの便乗者がこの誇大宣伝に乗じて利益を得ていることです。例えばブロックチェーンは、当時は非常に人気がありましたが、今ではほとんど議論されていませんよね?これが第一の点です。第二はメタバースです。現在、積極的に取り組んでいるのは米国のFacebookだけです。中国では、将来、完全に仮想的な世界に住むことになるのかどうか、多くの人が議論しています。そして、昨年末から今年初めにかけて、Facebookはこの分野に数千億ドルを投資しましたが、成果は上がらず、最終的に大規模なレイオフを開始しました。今、ホットな話題はChatGPTです。興奮する人もいれば、不安を抱く人もいますが、中国でも再びこの誇大宣伝に乗じて利益を得ようとしている人がたくさんいます。 ChatGPT とは何かを説明する前に、笑ってしまうかもしれない歴史的な話をしましょう。振り返ってみると、今日でも多くの人が同じような行動をしていることがわかります。 1503年、コロンブスの息子は、コロンブスが新世界を目指して西へ航海していた時の出来事を記録しています。航海の途中、ジャマイカに到着した時、船の食糧が尽きてしまいました。コロンブスと乗組員は、地元の人々に食料を頼らざるを得ませんでした。しかし、数日後、乗組員と地元住民の間で衝突が起こりました。一部の乗組員が彼らの食料を盗んだため、地元住民は彼らの食料供給を断ち切りました。 この窮地を脱するため、コロンブスは巧妙な計画を思いつきました。彼は日食や月食などの情報が記された万年カレンダーを携行していました。コロンブスは地元の部族長たちを呼び集め、「あなたたちは私に食料を与えず、神を怒らせた。神は怒り、月は赤くなり、そして神は月を取り去るだろう」と言いました。 部族長は急いでコロンブスのところへ行き、コロンブスの条件をすべて受け入れると約束しました。コロンブスは「分かりました。テントに入って、神にあなたを罰しないよう祈ります。ですが、少し時間が必要です」と言いました。そしてコロンブスはテントに入りました。実際、テントに入ると、コロンブスは砂時計を手に持ち、時間を確認していました。 今日、天文学の知識によって、皆既月食の持続時間は約48分で、その後月が再び現れることは明らかです。しかし、当時のジャマイカ人たちはそれを知りませんでした。彼らが目にしたのは、コロンブスがテントから出てきて、その後月が現れる光景でした。コロンブスはこう言いました。「神は私の忠告を聞き入れ、あなたたちを許すと約束した。だが、私たちに良い食べ物を与えなければならない。」そこで、地元の人々は深く感謝し、彼らに食べ物を与え続けました。 この物語は何を示しているのでしょうか?皆既月食にはそれなりの根底にある原因があるにもかかわらず、人々がその原因を知らないため、この自然現象を神の仕業だと考えてしまうことがよくあります。そして、この神は人類が創造したものです。つまり、神を創造した後、人間はその足元にひれ伏し、その僕となったのです。 だからこそ、私は「世界文明史」という講座を開講しているのです。 文明の発展とは、本質的に人類が自然の法則を絶えず理解していく過程です。私たちの漸進的な進歩は、地元の先住民のように、神への祈りが月の消滅を本当に防ぐことができると盲目的に信じることを防ぐことを目指しています。日食と月食の背後にはケプラーの惑星運動の三法則があり、ケプラーの三法則の背後にはニュートンの万有引力の法則があることが、今では分かっています。人類がこれを理解すると、自然に対する私たちの態度はもはや単なる恐怖ではなく、自然の法則を利用して無数のことを成し遂げることができるようになります。 ChatGPT の技術的基礎は何ですか?歴史を振り返ると、ChatGPTの状況も非常に似ています。ChatGPTは言語モデルと呼ばれる数学モデルに基づいています。言い換えれば、ChatGPTは数学モデルに基づいています。今日、この技術が強力なのは、主に以下の3つの理由からです。 まず、大量の計算が必要になります。 第二に、大量のデータが含まれています。 3 番目に、今日の言語モデルをトレーニングする方法は以前よりもはるかに優れています。 これは1972年に私のメンターであるフレッド・ジェリネック氏と彼のチームによって開発された技術です。具体的には、彼がIBMで開発した、文や言語現象の発生確率を測定する技術です。どのような用途に使われたのでしょうか?当初は音声認識、次に機械翻訳、そして後にコンピューターによる質問応答、つまり今日私たちが質問応答と呼ぶものに使われました。 当時、要約機能は搭載されていました。例えば、1万語の記事を与えられたとして、その内容を10の文で要約するにはどうすればよいでしょうか。自然言語処理に携わる人にとって、これは数学的な問題です。つまり、条件は何でしょうか。条件は1万語で、どのような結果を望むでしょうか。結果は10の文になるかもしれませんし、100語になるかもしれません。そして、その組み合わせは数多くあります。ランダムにいくつかの文を選ぶこともできますし、いくつかの文を2つの段落に分割し、重要度の低い修飾語や説明的な部分を取り除いていくこともできます。また、2つの文を1つに結合することもできます。テキストを結合する際、コンピューターはどの文が結合される可能性が高いかという確率を計算し、その確率に従って文を結合します。 現在私たちが目にするChatGPTは、この大規模な言語モデルです。最も確率が高く、最も出現頻度の高いテキストを選択し、それを提示します。つまり、ChatGPTの結果を生成するプロセスは、膨大な計算量を必要とします。膨大な量のデータと膨大な数のGPU(コンピュータプロセッサ)が必要です。これらのリソースがなければ、ChatGPTは機能しません。 さらに、今日のChatGPTは単なる技術ではなく、多くの人間の介入も必要としています。ChatGPTが生成した結果をレビューするために、専門の会社を雇っているほどです。例えば、ChatGPTが100個の要約を生成し、どれも問題なく、私には違いがわからない場合、これらの人々は、どれがより正確な要約である可能性が高いかを判断するのを手伝ってくれるのです。 実のところ、ChatGPTは言語モデルに基づいており、この言語モデル技術は1972年から存在していました。50年経った今、業界ではChatGPTを特別なものとは見なしていません。それ以前から、この言語モデルは既に多くの成果を上げていました。 「言語モデル」という言葉を初めて作ったのは、私の指導教官であるイェリネックでした。彼は1993年頃にジョンズ・ホプキンス大学に着任し、私は1996年に彼の学生としてジョンズ・ホプキンス大学に入学しました。中国語の「言語モデル」という訳語は、私が1990年代に発表した論文の中で作ったものです。当時、その潜在的な応用範囲を知っていたのは、この分野の私たちだけでした。しかし、これほどホットな話題になるとは想像もしていませんでした。 これを次のように理解することができます。ChatGPT の「言語モデル」は、月食に対するケプラーの惑星運動の 3 つの法則のようなものです。 「言語モデル」が最初に開発された経緯はどのようなものだったのでしょうか?では、言語モデルが発明された当時の状態はどのようなものだったのでしょうか? 実際、1990年代には、単純な統計手法を用いて得られたモデルは非常に不正確でした。まるで惑星を観測しながら、その未来をプトレマイオスの地動説で予測するようなもので、非常に不正確です。そのため、私たちは文法、主題、そして意味に関する情報を大量に取り入れるようになりました。その結果、言語モデルは非常に複雑になり、この複雑さが新たな重大な問題を引き起こしました。 何が問題なの? 例えば、私はかつて非常に複雑な言語モデルに取り組んだことがあります。このモデルにはいくつのパラメータがあったでしょうか?600万パラメータ。つまり、言語モデルのサイズは基本的にこれらのパラメータによって決まるということです。私が作ったのは、当時としては最大かつ最も複雑な言語モデルでした。PCは使わず、スーパーサーバー20台を使い、そのような言語モデルの学習には約3ヶ月かかりました。つまり、計算負荷が膨大だったということです。では、ChatGPTの最初のバージョンの言語モデルでは、いくつのパラメータが使われていたでしょうか?約2000億パラメータです。これは、長年にわたる変化が見て取れるでしょう。 コンピューターはどんな質問に答えるのが得意ですか?約13年前の2010年頃、言語モデルはどの程度の水準を達成できたのでしょうか?2つの例を挙げましょう。この2つの例は、私が2014年にGoogleを退職する前に行ったものです。当時、私はGoogleの自動質問応答システム(コンピューターが質問に答えるシステム)を担当していました。しかし、この製品は英語版だったため、中国語圏ではあまり認知されませんでした。 「空はなぜ青いのか?」という質問に対する Google の回答をお見せしましょう。 答えはこうです。太陽光は大気圏を通過して地球に到達する際に屈折します。大気中のガスによって、様々な色の光が様々な場所に散乱します。青色光は波長が短く、他の色よりも屈折率が高いため、空は青く見えるのです。 これは当時コンピューターが生成した回答でした。公平を期すために言えば、この現象を説明するには相当な物理学の知識が必要であり、文章自体もかなり理にかなっているように思えたため、私自身が書くよりも優れた回答でした。今日、ChatGPTを使用する目的の一つは、質問に答えてもらうことです。 これを詳しく説明しましょう。 実際、コンピューターに尋ねる質問は、単純な質問と複雑な質問の2つのカテゴリーに分けられます。単純な質問とは、ある有名人の出身地や生まれた年など、事実に関する質問です。これらは明確な答えがある事実であるため、簡単な質問です。 2つ目のカテゴリーは複雑な質問です。ChatGPTの優れた点と言えるでしょう。ChatGPTは情報を統合し、「なぜ空は青いのですか?」といった質問にも、まるで独自のロジックがあるかのように答えることができます。もう1つのカテゴリーはプロセス指向の質問です。例えば、ChatGPTにケーキの焼き方を尋ねた場合、すべての手順を書き留めることができますか?今日はChatGPTにケーキの焼き方を尋ねてみましたが、水、卵、小麦粉のカップ数など、非常に詳細なプロセスを提供できます。その答えに基づいて実際にケーキを焼くことができ、もしかしたらかなり美味しいケーキを焼くことができるかもしれません。 これは誰もが驚嘆する点です。しかし、コンピューターは2014年に既にこれを実現しており、しかも非常に優れた成果を上げていたことを知っておくべきです。つまり、この技術自体はそれほど謎めいたものではありません。 コンピューターと人間では、どちらの方が文章を書くのが得意でしょうか?ChatGPTが今これほど人気を集めている理由の一つは、そのライティング機能です。例えば、仕事の報告書の作成は、現在アメリカ人の間でChatGPTが最もよく使われている用途です。「今週は1234567を書いたよ」と言えば、「ほら、もう自分で苦労して書く必要はない。ChatGPTに作成させて、少し編集するだけだ」と思うかもしれません。 しかし、コンピューターライティングは実際には難しくもあり、簡単でもあります。例を挙げてみましょう。 2014年にGoogleを退職した後は、プログラミングはあまりしなくなりました。しかし、コンピューターリソースはまだ少し残っていたので、暇な時間に趣味でプログラムを書いていました。その時、コンピューターに2つの詩を書かせました。ぜひ読んでみてください。 最初の詩は五字詩で、私の考えでは李白風の詩です。ぜひ読んでみてください。この詩はコンピュータ自身が書いたものです。実際、読んでみると、李白の特徴がいくつか感じられるでしょう。 下記に2番目の詩の画像も掲載しましたので、ぜひご覧ください。 まず、古代の詩にはどれも音調がありますが、現代の発音は当時のものとは異なります。ですから、音調が古代と一致しているかどうかは問題ではありません。しかし、内容と芸術的構想だけを見れば、とても読みやすいと感じるでしょう。 さて、本題に戻りましょう。最初の詩はどのように書かれたのですか? 実は、とても簡単です。李白の詩をコンピュータに入力するだけです。李白の詩は1000編以上ありますが、行数は約1万行なので、コンピュータにとっては非常に簡単です。コンピュータが詩を書く際には、文章を2文字または3文字のグループに分解します。例えば、「空愁」(空虚な悲しみ)と「忆长安」(長安を偲ぶ)です。そして、先ほど述べた言語モデルを用いて確率を計算し、どのグループの確率が最も高いかを判断します。分解が終わったら、私は「長安を偲ぶ詩を書いてください」と指示します。すると、コンピュータはこれらの要素を並べ替えて組み合わせ、「忆长安」を生成します。これが基本的にこの詩の構成要素です。2つ目の詩は少し複雑です。 でも、この2つのプログラムを書くのにどれくらい時間がかかったか、ご存知ですか?2日です。これは一体何を意味するのでしょうか?コンピューターにまともなコードを書かせるのは、実はそれほど難しいことではないということです。あなたが思っているほど神秘的なものではありません。というか、コンピュータープログラミング自体が、あなたが思っているほど神秘的なものではないのです。 では、なぜこの2つの詩はこんなにも美しく見えるのでしょうか?それは唐代の詩であり、唐代の詩には決まった形式があるからです。同様に、ChatGPTを使って週報を書くのがなぜこんなにも優れているのでしょうか?それは、週報の形式が基本的にリストであり、これも決まった形式だからです。たとえあなたがウォール・ストリート・ジャーナルの中国語版を読んでいたとしても、その内容の90%はコンピューターで生成されたものです。ただ、あなたはそれに気づいていないだけです。書き上がった後、人間は当然テーマを決め、最初の段落に序文を書き、次に要約とタイトルを書く必要があります。それが人間の仕事です。 なぜ金融記事を書く方が優れているのでしょうか?それは、多くの事実が含まれており、フォーマットが決まっているため、書きやすいからです。 ChatGPTの背景について長々と説明してきたのは、それが謎めいたものではなく、その背後に非常に高度な機械があるわけでもないからです。ChatGPTは1972年という早い時期に存在した数学モデルに依存していますが、今日ではその計算能力は総当たり計算によって非常に強力になっています。 では、ChatGPTは1回のトレーニングセッションでどれくらいの電力を消費するのでしょうか?おそらく、テスラの電気自動車3,000台を20万マイル(約32万キロメートル)走行させ、限界まで運転した場合の消費電力に匹敵するでしょう。これは1回のトレーニングセッションで消費する電力量です。これは非常に費用のかかる取り組みです。 ChatGPT は実際に私たちにどのような影響を与えるのでしょうか?次に、ChatGPT が人々に与える影響についてお話しします。 ここで歴史の話に戻ります。あらゆる技術革命は人々に何らかの影響を与えます。しかし、ChatGPTは厳密に言えば新しい技術革命ではありません。先ほど述べたように、このプロセスは1970年代から1990年代にかけて長く続いており、その間に私たちは多くの研究を行い、そして1990年代から現在に至るまで、さらに多くの人々が多くの研究を行ってきました。ここでの最大の進歩は、実際には言語モデルそのものではなく、むしろ2000年頃に登場したディープラーニングです。ディープラーニングにより、言語モデルのトレーニングは以前よりもはるかに正確になり、単純な統計分析の域を超えました。 今日の言語モデルのトレーニングは、もはや単なる統計分析の問題ではなくなっており、これが ChatGPT が比較的良好な結果を生成できる理由の 1 つです。 ChatGPTが人々に与える影響については、すぐには答えられません。まず最初にお聞きしたいのですが、今お見せした2つの唐詩について、何か特別なことに気付きましたか?確かに、この2つの詩はよく書かれていますが、読んでも唐代についての既存の理解が大きく深まるわけではありません。これは、ChatGPTがオウムのようなものだからです。つまり、あなたが何かを言わなければ、ChatGPTは真似をしません。発音は心地よいかもしれませんが、それ以上の情報は提供しません。 現在、インターネット上のコンテンツの90%はこのカテゴリーに該当します。つまり、目新しい情報も少なく、オリジナルコンテンツでもなく、独自の洞察でもなく、様々な情報源からコピー&ペーストされただけのものです。現在、DouyinやKuaishouといったショートビデオサイトのコンテンツの99%がこのカテゴリーに該当すると思います。中身が全くありません。読んでみて面白いと感じるかもしれませんが、実際には、どれだけ読んでも何の役にも立ちません。 では、影響を受けないのは誰でしょうか?影響を受けないのはコンテンツクリエイターです。 なぜこんなことを言うのでしょうか?先ほど私が尋ねた「なぜ空は青いのか?」という質問を覚えていますか?Googleはどのようにしてその質問に答えることができるのでしょうか? Googleがこの質問に答えた時、当時のまともな英語の文章をほぼすべて、約1000億文分析したからです。この回答はいくつかの大学のウェブサイトやNASAのウェブサイトで見つけることができます。私たちはそれをつなぎ合わせ、編集し、選び出しただけです。しかし、初期の物理学者たちはこの研究を行い、この原則を明らかにしました。つまり、その研究はChatCPTにとって意義深く、かけがえのないものであるということです。 ChatGPT はどのような新しい機会をもたらすのでしょうか?多くの人が「ChatGPTにはどんな新しいチャンスがあるの?」と尋ねます。率直に言って、何もありません。リソースを大量に消費しすぎて、資金的に無理だからです。では、誰が恩恵を受けるのでしょうか?それはリソースを販売する人たちです。 例え話をすると、カリフォルニアのゴールドラッシュの頃、数え切れないほどの人々が金の採掘のためにこの地域に押し寄せました。今日に至るまで、どの採掘者が実際に利益を得たのかは分かっていません。誰も名前を残していません。しかし、最終的に利益を得たのは誰でしょうか?それは水売りとジーンズ売りです。ChatGPTも同じ原理で運営されています。誰もが金の採掘に出かけますが、実際には利益は得られません。しかし、その過程では常に水とジーンズを購入する必要があり、最終的に利益を得るのはこれら2つのグループだけです。当時誕生したリーバイスはジーンズを製造しています。 つまり、最終的には、少数の大手クラウド コンピューティング企業にお金を払うことになるかもしれません。それが 1 つの結果になるかもしれません。 まず、恐れないでください。 今日、多くの人々が ChatGPT を恐れていますが、それはコロンブスが月食に遭遇したときに月食を恐れたジャマイカの原住民のようになってはいけないのと同じです。 次に、いわゆるチャンスを無理に探すのではなく、普段通りに仕事をしてください。 ある学生が「なぜAppleはChatGPTをやらないのか」と聞いてきたので、「まさにその通りです!Appleは世界で最も裕福な企業であり、最高の利益と最大の時価総額を誇っています。現在、多くのいわゆるAI企業は依然として赤字を出しています」と答えました。学生たちが一見的外れな質問をしてくるときには、冗談めかしてこう尋ねます。「住宅ローンはもう完済しましたか?もしまだなら、仕事に戻ってしっかり仕事をしてください。それが誰にとっても最も有意義なことであり、歴史的に見ても常にそうでした」 第三に、いわゆる陰謀家やあなたから金を巻き上げようとする人々の策略を見抜く必要があります。 言い換えれば、コロンブスを装い、神の代理人を名乗り、月が現れるように祈る人がいても、信じてはいけません。そのため、ChatGPTの背後にある科学的原理のいくつかを理解する必要があります。今日私が説明したような、最も単純な原理のいくつかを理解する必要があります。 |