出典:Xi Xiaoyaoのかわいい家 序文実際、リレーショナルデータベースからインターネット情報検索に至るまで、知識表現と検索方法のあらゆる飛躍は、科学技術の歴史において大きな技術革命を引き起こすでしょう。ChatGPTのリリース後、生成AIは新たな技術パラダイムとなりました。この革命は、Microsoft、Google、Baiduなどの多くの検索エンジンから始まり、瞬く間に広まりました。ますます多くの仕事が不可逆的な変化を経験することになるでしょう。一部の研究では、少なくとも80%の仕事が何らかの形で影響を受けるとされています[1] 。 この熱狂の中、5000万ドルを投資したと主張する投資家や、李牧のようなテック業界の第一人者たちが職を辞し、大規模なモデルスタートアップを立ち上げる動きが見られた。騒ぎは次第に混沌と化し、嵐の到来を予感させた。主流の議論は徐々に技術的な議論から「AIが人間に取って代わる」ことへの不安へと移り、「安らかに眠りに落ちてはいけない」という警告へと移り、中には人類が全知全能の神を創造できるのかという究極の問いに思いを巡らせる者も現れた。 ChatGPTの熱心な支持者を自称し、大喜びする人もいれば、無関心で、資本が煽った単なるバブルだと考える人もいました。いずれにせよ、これは止められない技術の波となるでしょう。ここでは、GPT-1からGPT-4 [2]までのタイムラインを辿り、GPT-4の過去、現在、そして未来について詳しく考察します。 I. 前世GPTシリーズの開発のタイムラインを辿ると、5年にわたる技術的探求であることがわかります。GPT-2からGPT-3に至るまで、実際にはモデルのフレームワークにほとんど変化はなく、パラメータ数は15億から1750億へと反復的に変化しているだけです。T5、Switch Transformer、PaLMといった大規模モデルを次々とリリースするというGoogleの競馬的な手法とは異なり、OpenAIはGPT路線を「揺るぎなく」堅持しています。 この粘り強さは、今となっては特に称賛に値します。2020年、OpenAIは大規模モデルのスケーリング則を提唱し、パラメータサイズを大きくすることでモデル性能を大幅に向上させることができるとされ、一時期「黄金律」となり、大規模モデル開発の「狂乱」時代が到来しました。1760億パラメータのBLOOM、5300億パラメータのMT-NLG、5400億パラメータのPaLM、そして「貪欲」な人でさえ、MoE(Mixture of Experts)アーキテクチャを用いてパラメータ数を無理やり数兆個に積み上げました。当時、GPT-4モデルのパラメータ数が100兆個に達するという噂が飛び交っていました。 しかし、2022年中頃を見てみると、中国では大規模モデルを構築し、最先端の成果を出そうと躍起になってしまい、ほとんど全員が混乱していることがわかる。学界はあらゆる手を使って「微調整」や「宣伝」を行っているが、産業界は大規模モデルの実装に苦労している。 「天にも届かず地に足もつかない」状況で、盲目的に大規模モデルを追求する潮流に追われ、混乱だけが残っている。一方では、エポックAIが2026年には言語データが枯渇するという論文を発表した[3] 。他方では、逆スケーリング現象(モデルサイズが大きくなるほど効果が悪化する現象)が次々と発見されている[4] 。超大規模モデルの前途は霧に包まれているようだ。 しかし、モデルサイズが拡大し続け、ある閾値を超えると、モデルの性能は爆発的な向上を示します。この驚くべき現象は、大規模モデルの出現と呼ばれています。例えば、モデルサイズがさらに大きくなると、モデルの精度は「U字型」の曲線を描くことが研究者によって発見されています[5] 。大規模モデルは、ある臨界点を超えると、予想外に非常に強力な能力を発揮するようです。新たな進歩と発見は、状況を一変させたようです。多くの拡張プロンプト技術は、小規模モデルでは効果がありませんが、モデルが一定の大きさに達すると突然効果を発揮します。 このような背景から、OpenAIはGPT-3モデルにRLHF(Reinforcement Learning from Human Feedback:人間からのフィードバックによる強化学習)技術を適用しました。簡単に言うと、RLHFは事前学習済みの言語モデルを人間のフィードバックに基づいてさらに微調整し、人間の好みに適合させるものです。一見シンプルですが、OpenAIも5年間にわたってRLHFの開発に取り組んできました[6] 。
OpenAIはRLHFを「AGI(汎用人工知能)と人間の意図の整合を効果的に改善する技術」と主張しているが、OpenAIの整合チーム責任者であるJan Leike氏は、優れた整合能力の出現には確固たる理論的根拠がないことを認めている。言い換えれば、この手法は正式な理論ではなく、「評価は生成よりも容易」という動機に基づいている。 本題に戻りますが、OpenAIはRLHF技術をベースにChatGPTを構築しました。もちろん、より大きなニュースは、誰もがGPT-4を熱心に待ち望んでいたことです。OpenAIの創設者サム・アルトマン氏は、これがこれまでで最も強力なモデルであり、最も強力なマルチモーダルモデルであると明言しました。 技術革命が始まったようだ。フォーチュン誌はこれをNetscape Navigatorの時代と表現した。「暗い地下室、オタクの臭い寝室、そして愛好家たちの孤独な洞窟から、おばあちゃんでも使い方を知っているようなエンジニアリングを一変させる製品が、世代を超えて登場するものだ」。ウェブブラウザは1990年には既に存在していたが、ほとんどの人がインターネットを知ったのは1994年のNetscape Navigatorの登場まで待たなければならなかった。今、私たちはAIにおけるNetscape Navigatorの時代を告げているのだ! II. この人生上記のタイムラインの続き:
技術的障壁を築き上げてきたOpenAIは、自社の技術をオープンソース化することを拒否し始めています。DeepMindのCEOであるデミス・ハサビス氏でさえ、「私たちは、安価な取引を求める人々や、情報リポジトリを読んでいるだけで貢献していない人々のことを考えなければならない時代に入りつつあります。これには国家も含まれますが、これは明らかで、おそらく皆さんも想像できるでしょう」と述べています。彼は、AI業界における研究成果の公開文化は、近いうちに終焉を迎える必要があるかもしれないと述べています。 [12] これについて皆さんはどう思うでしょうか? ここで、OpenAIの元政策ディレクターであるジャック・クラーク氏が私の代理として発言しました。クラーク氏はGPT-4に強く反対し、「事態はますます奇妙になっています。これは技術的な問題というよりも、むしろ政治的な問題です。GPT-4は基本的に、計算を通して提示されるハードパワーポリティクスです。GPT-4は間違いなく社会変革をもたらすでしょうが、その独占性ゆえに大きな政治的反発も引き起こすでしょう」と述べました。[13] 技術そのものに戻ると、 OpenAIはGPT-4のリリース前にセキュリティ調査、リスク評価、そしてイテレーションに8ヶ月を費やしたと述べています。そのため、GPT-4の最初の利用可能日は2022年8月でした。GPT-4は、DeepMindのFlamingoモデルに類似した視覚言語モデルコンポーネントを含む大規模な言語モデルです。入力はテキストまたは画像ですが、出力はすべてテキストです。 GPT-4のデータ収集は、Wojciech Zaremba(データセットチームマネージャー)とQiming Yuan(データセット取得・処理責任者)が率いる困難な作業でした。データセットは、OpenAIの従業員35名からなるチームから提供されました。事前学習段階では、OpenAIはGPT-4データセットをフィルタリングし、不適切なポルノテキストコンテンツの量を特に削減しました。不適切なポルノコンテンツを含む可能性が高いとフラグ付けされた文書は、内部的に学習された分類器と辞書ベースのアプローチを組み合わせることで識別されました。 OpenAIはGoogle [15]を含む競合他社のデータセットの使用経験があり、最先端のDeepMind MassiveTextとGoogle Infinisetデータセットを活用しています。また、OpenAIはMicrosoftとの提携により、GitHubなどの大規模データセットへのアクセスを可能にしています。GPT-4は1.7T~2.9Tのテキストトークンで学習され、モデルパラメータには8000億~14000億の言語モデルパラメータと200億の視覚モデルパラメータが含まれていると推測されます。 さらに、GPT-4はテキスト生成の長さを大幅に改善しました。1トークンは通常約4文字に相当し、漢字1文字は約2~2.5トークンです。GPT-4以前のトークン制限は約4096で、これは英語で約3072語に相当します。会話の長さがこの制限を超えると、モデルは支離滅裂で意味のないコンテンツを生成していました。GPT-4では、最大トークン数は32768で、これは約24576語、つまり48ページのテキストに相当し、生成長さは8倍に増加しました。
価格面で見ると、GPT-4 は ChatGPT よりも約 30 倍、GPT-3 davinci よりも約 3 倍高価です。 3. 将来GPT-4の結果から、その大きな可能性がうかがえます。SATスコアは1410点(1600点満点中、上位6%)、APスコアは100%(5/5)でした。昨年8月、ある人物がGPT-4にアクセスし、「AIを通して人間性を増幅する」という書籍を執筆しました[15,16] 。 もちろん、将来の可能性はそれ以上に大きく、GPT-4と連携する企業からその一端を垣間見ることができます。
今度は、仕事のパラダイムが変わります。AIに任せるタスクがますます増え、人間はより多くの自由と可能性を手にするでしょう。いつか人間は思考力をAIに明け渡すかもしれません。その時、私たちは人間性の価値を再発見しなければなりません。そして、私たちにとって、その道のりはまだ長いのです!
|