著者 | ナビール・S・クレシ 編纂者:岳陽 大規模言語モデルは膨大な量のデータで学習され、そのデータセットは多くの図書館のコレクション全体に匹敵する規模です。しかし、ある日、利用可能なデータが枯渇してしまったらどうなるでしょうか?画像出典:Twitter[1] 01 データが足りませんか?現代の大規模言語モデル(LLM)の重要な事実は、「データが王様」と要約できます。人工知能モデルの挙動は、学習に用いるデータセットに大きく依存します。その他の詳細(モデルアーキテクチャなど)は、データセットに計算能力を提供するための手段に過ぎません。クリーンで高品質なデータセットを持つことの価値は計り知れません。[1] AIビジネスの実践において、データの重要性は明白です。OpenAIは最近、アクセル・シュプリンガー、エルゼビア、AP通信、その他のコンテンツ出版社やメディア大手とのデータ提携を発表しました。一方、ニューヨーク・タイムズ(NYT)は最近、OpenAIを提訴し、NYTのデータを用いてトレーニングしたGPTモデルの開発中止を求めました。一方、Appleはコンテンツ出版社と5,000万ドル以上のデータ提携を模索しています。現在の限界便益では、モデルがより多くのデータから得る便益は、単にモデルのサイズを大きくすることによる便益をはるかに上回ります。 学習コーパスの成長率は驚異的です。世界初の近代的なLLMは、知識の宝庫であるWikipediaで学習されました。GPT-3は3,000億トークン(単語、語根、句読点を含む)で学習され、GPT-4の学習データは驚異的な13兆トークンに達しました。自動運転車は数千時間分のビデオ録画から運転スキルを学習し、習得します。プログラミング支援においては、OpenAIのCopilotはGitHubにある数百万行に及ぶ人間が書いたコードに依存しています。 この状況は今後も続くのでしょうか?2022年にarXiv[2]に掲載された研究によると、高品質なデータが枯渇する段階に近づいており、その転換点は2023年から2027年の間に起こると予想されています。 (ここでいう高品質なデータには、Wikipedia、ニュース、コード、科学論文、書籍、ソーシャルメディアの会話、フィルタリングされたウェブページ、Redditなどのユーザー生成コンテンツが含まれます。) この研究では、この高品質データのストックは約9e12語と推定されており、年間4%から5%の割合で増加しています。9e12とはどれくらいの量なのでしょうか?ちなみに、シェイクスピア全集は約90万語(9e5)です。比較すると、9e12はシェイクスピア全集の語数総計の1,000万倍という驚異的な数字です。 大まかな試算によると、真に人間レベルの人工知能を実現するためには、必要なデータ量が現在の5~6桁増加する可能性があります。つまり、少なくとも10万倍から100万倍のデータ量に拡大する必要があるということです。 まとめると、GPT-4は13兆トークンを使用しました。しかし、音声・動画素材、英語以外の言語データ、電子メール、テキストメッセージ、Twitterの投稿、デジタル化されていない書籍、企業の独自データなど、未開拓の領域にはマイニングを待つ豊富なデータが眠っています。これらのチャネルを通じて、現在保有しているデータの10倍から100倍の有用なデータを取得できる可能性がありますが、10万倍のデータを取得することは単なる夢物語です。 つまり、まだデータが十分ではないのです。 さらに、既存のいくつかの不利な要因により、高品質のデータの取得がさらに困難になる可能性があります。
02 合成データ: 超知能の新たな夜明け?これまでの分析に基づくと、やや悲観的な結論を導き出せるかもしれない。つまり、現状では超知能を訓練するにはデータが不十分だ、という結論だ。しかし、現時点でそのような判断を下すのは時期尚早だ。この問題を解決する鍵は、合成データ、つまり機械が自己学習のために自律的に生成するデータの作成にあるのかもしれない。 空想のように聞こえるかもしれませんが、一部の最先端の現代の AI システムは、実際には合成データを使用してトレーニングされています。
したがって、この技術はチェスや動画生成アプリケーションにおいて実証済みです。真の問題は、テキスト処理にも同様に応用できるかどうかです。ある意味では、学習用の高品質な動画データを作成することは、テキスト学習データを生成するよりもはるかに簡単です。必要なのは、iPhoneで日常生活の現実を捉えた動画を撮影することだけです。しかし、合成テキストデータが効果的な学習データとなるためには、高品質で、興味深く、そしてある意味で「リアル」でなければなりません。 重要なのは、価値ある合成データの作成は、単にテキストをゼロから作成するだけでは不十分だということです。例えば、最近発表された論文[5](2024年1月)では、大規模言語モデルを用いて取得したネットワークデータの表現力を向上させることで、学習結果を最適化するだけでなく、学習効率も向上させることができると指摘されています。場合によっては、データセット内の最も品質の悪いデータをフィルタリングして削除するだけで(「データセットプルーニング」と呼ばれるプロセス)、大規模言語モデルのパフォーマンスを大幅に向上させることができます。画像データに関するある研究では、さらに驚くべきことに、最高のモデルパフォーマンスを達成するには、データセット内の重要でない情報の最大90%を破棄する必要があることが判明しました。 今日、私たちは子供のように動画を観察し学習できる大規模言語モデルを所有しています。より高品質なマルチモーダルデータ(動画、音声、画像、テキストを含む)を取得する技術を解明すれば、大規模言語モデルが世界観の欠落部分を補うために必要な学習データの量は、これまで考えられていたよりもはるかに少ないことに驚くかもしれません。 03 合成データ生成の問題を解決した場合の影響
SF小説『デューン』では、幻覚剤のような物質(作中では「スパイス」として広く知られている)が銀河のかけがえのない宝として称賛されています。こうした状況を踏まえると、イーロン・マスク氏の最近のツイート[6]「データはスパイスだ」は非常に意義深いものです。AI研究室はこの点を深く理解しており、データの「いじくり回し」に尽力しています。 [注記] OpenAI の研究者による優れたブログ記事「AI モデルにおける『それ』はデータセットである」(https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/) では、次の点が適切に指摘されています。
読んでくれてありがとう! ナビール・S・クレシはマーケタスの客員研究員です。彼の研究は、21世紀におけるAIの影響に焦点を当てています。 https://nabeelqu.co/ 終わり 参考文献[1] https://twitter.com/dieworkwear/status/1757203606221340858/photo/2 [2] https://arxiv.org/pdf/2211.04325.pdf [3] https://en.wikipedia.org/wiki/AlphaZero [4] https://openai.com/sora [5] https://arxiv.org/pdf/2401.16380.pdf [6] https://twitter.com/elonmusk/status/1727813282377957433 この記事は、原著者の許可を得てBaihai IDPによって翻訳されました。翻訳の転載をご希望の場合は、お問い合わせください。 オリジナルリンク: https://digitalspirits.substack.com/p/is-synthetic-data-the-key-to-agi |