王思若

出典：Xi Xiaoyaoのかわいい家

序文

実際、リレーショナルデータベースからインターネット情報検索に至るまで、知識表現と検索方法のあらゆる飛躍は、科学技術の歴史において大きな技術革命を引き起こすでしょう。ChatGPTのリリース後、生成AIは新たな技術パラダイムとなりました。この革命は、Microsoft、Google、Baiduなどの多くの検索エンジンから始まり、瞬く間に広まりました。ますます多くの仕事が不可逆的な変化を経験することになるでしょう。一部の研究では、少なくとも80%の仕事が何らかの形で影響を受けるとされています^[1] 。

この熱狂の中、5000万ドルを投資したと主張する投資家や、李牧のようなテック業界の第一人者たちが職を辞し、大規模なモデルスタートアップを立ち上げる動きが見られた。騒ぎは次第に混沌と化し、嵐の到来を予感させた。主流の議論は徐々に技術的な議論から「AIが人間に取って代わる」ことへの不安へと移り、「安らかに眠りに落ちてはいけない」という警告へと移り、中には人類が全知全能の神を創造できるのかという究極の問いに思いを巡らせる者も現れた。

ChatGPTの熱心な支持者を自称し、大喜びする人もいれば、無関心で、資本が煽った単なるバブルだと考える人もいました。いずれにせよ、これは止められない技術の波となるでしょう。ここでは、GPT-1からGPT-4 ^[2]までのタイムラインを辿り、GPT-4の過去、現在、そして未来について詳しく考察します。

I. 前世

GPTシリーズの開発のタイムラインを辿ると、5年にわたる技術的探求であることがわかります。GPT-2からGPT-3に至るまで、実際にはモデルのフレームワークにほとんど変化はなく、パラメータ数は15億から1750億へと反復的に変化しているだけです。T5、Switch Transformer、PaLMといった大規模モデルを次々とリリースするというGoogleの競馬的な手法とは異なり、OpenAIはGPT路線を「揺るぎなく」堅持しています。

この粘り強さは、今となっては特に称賛に値します。2020年、OpenAIは大規模モデルのスケーリング則を提唱し、パラメータサイズを大きくすることでモデル性能を大幅に向上させることができるとされ、一時期「黄金律」となり、大規模モデル開発の「狂乱」時代が到来しました。1760億パラメータのBLOOM、5300億パラメータのMT-NLG、5400億パラメータのPaLM、そして「貪欲」な人でさえ、MoE（Mixture of Experts）アーキテクチャを用いてパラメータ数を無理やり数兆個に積み上げました。当時、GPT-4モデルのパラメータ数が100兆個に達するという噂が飛び交っていました。

しかし、2022年中頃を見てみると、中国では大規模モデルを構築し、最先端の成果を出そうと躍起になってしまい、ほとんど全員が混乱していることがわかる。学界はあらゆる手を使って「微調整」や「宣伝」を行っているが、産業界は大規模モデルの実装に苦労している。 「天にも届かず地に足もつかない」状況で、盲目的に大規模モデルを追求する潮流に追われ、混乱だけが残っている。一方では、エポックAIが2026年には言語データが枯渇するという論文を発表した^[3] 。他方では、逆スケーリング現象（モデルサイズが大きくなるほど効果が悪化する現象）が次々と発見されている^[4] 。超大規模モデルの前途は霧に包まれているようだ。

しかし、モデルサイズが拡大し続け、ある閾値を超えると、モデルの性能は爆発的な向上を示します。この驚くべき現象は、大規模モデルの出現と呼ばれています。例えば、モデルサイズがさらに大きくなると、モデルの精度は「U字型」の曲線を描くことが研究者によって発見されています^[5] 。大規模モデルは、ある臨界点を超えると、予想外に非常に強力な能力を発揮するようです。新たな進歩と発見は、状況を一変させたようです。多くの拡張プロンプト技術は、小規模モデルでは効果がありませんが、モデルが一定の大きさに達すると突然効果を発揮します。

このような背景から、OpenAIはGPT-3モデルにRLHF（Reinforcement Learning from Human Feedback：人間からのフィードバックによる強化学習）技術を適用しました。簡単に言うと、RLHFは事前学習済みの言語モデルを人間のフィードバックに基づいてさらに微調整し、人間の好みに適合させるものです。一見シンプルですが、OpenAIも5年間にわたってRLHFの開発に取り組んできました^[6] 。

2017年、OpenAIは、システムが複雑なタスクを処理できるようにするために、少量の人間からのフィードバックを報酬関数として利用するこの技術を提案しました。この技術はAtariゲームにおいて良好な結果を示しており、「マッチスティック」がバックフリップを学習しました^[7] 。
2021年、OpenAIはこの技術を要約生成に活用し、80人の人間のアノテーターを雇用して64,800個のデータポイントを生成し、モデルの微調整を行いました。概算では、データのアノテーションコストだけで約300万ポンド^[8,9]のコストがかかりました。この研究は、RLHFが言語モデルにも適用可能であり、人間の価値観のような曖昧な対象にも最適化できることを証明しています。
2022年、OpenAIはRLHFをGPT-3に適用し、GPT-3よりもユーザーの意図を汲み取る能力に優れたInstructGPTを開発しました。InstructGPTのパラメータ数はわずか13億個で、GPT-3モデルの175億個の100分の1以上ですが、指示や事実により忠実であり、有害な要素の生成を大幅に削減しています。微調整コストはGPT-3のわずか2%です。

RLHF アプリケーション開発 ChatGPT 技術ロードマップ

OpenAIはRLHFを「AGI（汎用人工知能）と人間の意図の整合を効果的に改善する技術」と主張しているが、OpenAIの整合チーム責任者であるJan Leike氏は、優れた整合能力の出現には確固たる理論的根拠がないことを認めている。言い換えれば、この手法は正式な理論ではなく、「評価は生成よりも容易」という動機に基づいている。

本題に戻りますが、OpenAIはRLHF技術をベースにChatGPTを構築しました。もちろん、より大きなニュースは、誰もがGPT-4を熱心に待ち望んでいたことです。OpenAIの創設者サム・アルトマン氏は、これがこれまでで最も強力なモデルであり、最も強力なマルチモーダルモデルであると明言しました。

技術革命が始まったようだ。フォーチュン誌はこれをNetscape Navigatorの時代と表現した。「暗い地下室、オタクの臭い寝室、そして愛好家たちの孤独な洞窟から、おばあちゃんでも使い方を知っているようなエンジニアリングを一変させる製品が、世代を超えて登場するものだ」。ウェブブラウザは1990年には既に存在していたが、ほとんどの人がインターネットを知ったのは1994年のNetscape Navigatorの登場まで待たなければならなかった。今、私たちはAIにおけるNetscape Navigatorの時代を告げているのだ！

II. この人生

上記のタイムラインの続き:

3月14日、GPT-4がリリースされ、OpenAIは技術レポートと3分間のトレーラーを公開しました。GPT-4は、画像認識、歌詞生成、ウェブサイト作成など、マルチモーダル機能をサポートしています。また、様々な分野の試験で優れた成績を収め、ハーバード大学やスタンフォード大学といった一流大学と同等の水準に達しています。現在、Microsoft New BingとChatGPT Plusに統合されています。
3月16日、OpenAIのチーフサイエンティスト兼共同創設者であるイリヤ・スツケヴェル氏は、OpenAIはGPT-4に関する情報を今後一切公開しないと述べた。スツケヴェル氏は、競争とセキュリティ上の配慮、そしてもちろん、主に同業他社との競争のため、 OpenAIが研究成果の共有方法を変更した理由を問われた際、「率直に言って、私たちは間違っていました。もし私たちと同じように、人工知能がいつか非常に強力になると信じているなら、オープンソースに意味はありません。数年後には、誰もがオープンソースAIは賢明ではないと完全に認識してくれることを心から願っています。 ^{」と答えた。[10]}
3月17日、Microsoft 365は生成AIアシスタント「Copilot」を正式に導入し、Word、Excel、PowerPoint、Outlook、TeamsなどのアプリケーションにGPT-4を統合しました。ユーザーはAIに質問したり、AIからの指示を受け取ったりすることで、文書の下書き、プレゼンテーションの作成、メールの編集、会議の要約などを行うことができます。
3月20日、OpenAIはGPTモデルと技術が労働市場に与える潜在的な影響に関する論文を発表した。この影響は雇用の80%に影響を及ぼすと予想されている。 ^[11]

技術的障壁を築き上げてきたOpenAIは、自社の技術をオープンソース化することを拒否し始めています。DeepMindのCEOであるデミス・ハサビス氏でさえ、「私たちは、安価な取引を求める人々や、情報リポジトリを読んでいるだけで貢献していない人々のことを考えなければならない時代に入りつつあります。これには国家も含まれますが、これは明らかで、おそらく皆さんも想像できるでしょう」と述べています。彼は、AI業界における研究成果の公開文化は、近いうちに終焉を迎える必要があるかもしれないと述べています。 ^[12]

これについて皆さんはどう思うでしょうか?

ここで、OpenAIの元政策ディレクターであるジャック・クラーク氏が私の代理として発言しました。クラーク氏はGPT-4に強く反対し、「事態はますます奇妙になっています。これは技術的な問題というよりも、むしろ政治的な問題です。GPT-4は基本的に、計算を通して提示されるハードパワーポリティクスです。GPT-4は間違いなく社会変革をもたらすでしょうが、その独占性ゆえに大きな政治的反発も引き起こすでしょう^{」と述べました。[13]}

技術そのものに戻ると、 OpenAIはGPT-4のリリース前にセキュリティ調査、リスク評価、そしてイテレーションに8ヶ月を費やしたと述べています。そのため、GPT-4の最初の利用可能日は2022年8月でした。GPT-4は、DeepMindのFlamingoモデルに類似した視覚言語モデルコンポーネントを含む大規模な言語モデルです。入力はテキストまたは画像ですが、出力はすべてテキストです。

GPT-4のデータ収集は、Wojciech Zaremba（データセットチームマネージャー）とQiming Yuan（データセット取得・処理責任者）が率いる困難な作業でした。データセットは、OpenAIの従業員35名からなるチームから提供されました。事前学習段階では、OpenAIはGPT-4データセットをフィルタリングし、不適切なポルノテキストコンテンツの量を特に削減しました。不適切なポルノコンテンツを含む可能性が高いとフラグ付けされた文書は、内部的に学習された分類器と辞書ベースのアプローチを組み合わせることで識別されました。

OpenAIはGoogle ^[15]を含む競合他社のデータセットの使用経験があり、最先端のDeepMind MassiveTextとGoogle Infinisetデータセットを活用しています。また、OpenAIはMicrosoftとの提携により、GitHubなどの大規模データセットへのアクセスを可能にしています。GPT-4は1.7T～2.9Tのテキストトークンで学習され、モデルパラメータには8000億～14000億の言語モデルパラメータと200億の視覚モデルパラメータが含まれていると推測されます。

さらに、GPT-4はテキスト生成の長さを大幅に改善しました。1トークンは通常約4文字に相当し、漢字1文字は約2～2.5トークンです。GPT-4以前のトークン制限は約4096で、これは英語で約3072語に相当します。会話の長さがこの制限を超えると、モデルは支離滅裂で意味のないコンテンツを生成していました。GPT-4では、最大トークン数は32768で、これは約24576語、つまり48ページのテキストに相当し、生成長さは8倍に増加しました。

GPT-1からGPT-4までのコンテキストウィンドウの数。注：現在、GPT-4のコンテキスト長制限は8192トークンです。32768トークンを許容するバージョンはGPT-4-32Kと呼ばれていますが、現在アクセスが制限されています。

価格面で見ると、GPT-4 は ChatGPT よりも約 30 倍、GPT-3 davinci よりも約 3 倍高価です。

3. 将来

GPT-4の結果から、その大きな可能性がうかがえます。SATスコアは1410点（1600点満点中、上位6%）、APスコアは100%（5/5）でした。昨年8月、ある人物がGPT-4にアクセスし、「AIを通して人間性を増幅する」という書籍を執筆しました^[15,16] 。

もちろん、将来の可能性はそれ以上に大きく、GPT-4と連携する企業からその一端を垣間見ることができます。

教育業界と提携して学習の未来を模索し、Khan Academy（教育非営利団体）およびDuolingo Max（言語学習ソフトウェア会社）と提携してKhanmigoを立ち上げ、AIが生徒の宿題や外国語学習を指導できるようにしました。
IT 業界と提携し、Microsoft Bing および Microsoft 365 スイートに統合することで、生産性を再定義しました。ユーザーを真に理解する初の AI ボットとなる AI チャットボット Fin をリリースしました。また、メモ作成ソフトウェア Mem に統合され、未来を思い描き、未知の世界を探求するのをサポートしています。
BCG X は、ボストンコンサルティンググループなどの専門サービス企業と提携し、最先端の技術的専門知識と野心的な起業家精神を組み合わせて、組織が次の主要な投資を行い、大規模なイノベーションを実現できるよう支援します。
パートナーのリストには、コカ・コーラやモルガン・スタンレーなどの金融サービス企業や、アイスランドなどの政府機関も含まれています。

今度は、仕事のパラダイムが変わります。AIに任せるタスクがますます増え、人間はより多くの自由と可能性を手にするでしょう。いつか人間は思考力をAIに明け渡すかもしれません。その時、私たちは人間性の価値を再発見しなければなりません。そして、私たちにとって、その道のりはまだ長いのです！

『かわいい家』の著者：王思若
ノースイースタン大学の大学院生。AI4Science分野のアルゴリズムエンジニアとして働き、生命科学に少しでも貢献し、魅力的でありながら平凡な人生の旅を明らかにしたいと思っています。Zhihu ID: Wang Siruo
おすすめ作品
Microsoft: VRAM の最適化を限界まで押し上げましたが、他に誰がそれをできるでしょうか?
ICLR スポットライト | Facebook がロスレス INT8 オプティマイザーを導入し、数千億のパラメータを持つモデルの単一マシン操作を可能にする??
OpenAI の結論を覆し、DeepMind は事前トレーニングパラメータとスケールの関係を再定義します。

参考文献:
[1]https://arxiv.org/pdf/2303.10130v1.pdf
[2]https://lifearchitect.ai/gpt-4/
[3]Villalobos, Pablo, et al.「データは枯渇するのか？機械学習におけるデータセットのスケーリング限界の分析。」arXivプレプリントarXiv:2211.04325 (2022)。
[4]https://github.com/inverse-scaling/prize
[5]Wei, Jason, Yi Tay, Quoc V. Le. 「逆スケーリングはU字型になる可能性がある」arXivプレプリントarXiv:2211.02011 (2022).
[6]https://mp.weixin.qq.com/s/pjmOJdlcODnH5sXu3WWLGw
[7]Christiano, Paul F., et al.「人間の嗜好からの深層強化学習」神経情報処理システムの進歩30（2017）。
[8]Stiennon, Nisan, et al.「人間のフィードバックによる要約の学習」神経情報処理システムの進歩33（2020）：3008-3021。
[9]https://zhuanlan.zhihu.com/p/265136636
[10]https://www.theverge.com/2023/3/15/23640180/openai-gpt-4-launch-closed-research-ilya-sutskever-interview
[11]GPTはGPTです：大規模言語モデルの労働市場への影響の可能性に関する初期の考察。
[12]https://time.com/6246119/デミス・ハサビス・ディープマインド・インタービュー/
[13]https://importai.substack.com/p/import-ai-321-open-source-gpt3-giving
[14]Ouyang, Long, et al.「人間のフィードバックによる指示に従う言語モデルのトレーニング」arXivプレプリントarXiv:2203.02155 (2022)。
[15]https://twitter.com/reidhoffman/status/1636006090927390720
[16]https://www.impromptubook.com/wp-content/uploads/2023/03/impromptu-rh.pdf

HUOXIU

GPT-4 の過去、現在、そして未来！

序文

I. 前世

II. この人生

3. 将来

[1]https://arxiv.org/pdf/2303.10130v1.pdf

[2]https://lifearchitect.ai/gpt-4/

[3]Villalobos, Pablo, et al.「データは枯渇するのか？機械学習におけるデータセットのスケーリング限界の分析。」arXivプレプリントarXiv:2211.04325 (2022)。

[4]https://github.com/inverse-scaling/prize

[5]Wei, Jason, Yi Tay, Quoc V. Le. 「逆スケーリングはU字型になる可能性がある」arXivプレプリントarXiv:2211.02011 (2022).

[6]https://mp.weixin.qq.com/s/pjmOJdlcODnH5sXu3WWLGw

[7]Christiano, Paul F., et al.「人間の嗜好からの深層強化学習」神経情報処理システムの進歩30（2017）。

[8]Stiennon, Nisan, et al.「人間のフィードバックによる要約の学習」神経情報処理システムの進歩33（2020）：3008-3021。

[9]https://zhuanlan.zhihu.com/p/265136636

[10]https://www.theverge.com/2023/3/15/23640180/openai-gpt-4-launch-closed-research-ilya-sutskever-interview

[11]GPTはGPTです：大規模言語モデルの労働市場への影響の可能性に関する初期の考察。

[12]https://time.com/6246119/デミス・ハサビス・ディープマインド・インタービュー/

[13]https://importai.substack.com/p/import-ai-321-open-source-gpt3-giving

[14]Ouyang, Long, et al.「人間のフィードバックによる指示に従う言語モデルのトレーニング」arXivプレプリントarXiv:2203.02155 (2022)。

[15]https://twitter.com/reidhoffman/status/1636006090927390720

[16]https://www.impromptubook.com/wp-content/uploads/2023/03/impromptu-rh.pdf

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ