HUOXIU

高品質のデータだけでは不十分です。合成データは AGI への扉を開く黄金の鍵となるのでしょうか?

編集者注:人工知能技術の発展は、高品質なデータのサポートと切り離すことはできません。しかしながら、既存の高品質なデータ資源は枯渇に近づいています。学習データ不足の問題をいかに解決するかは、人工知能分野が早急に取り組むべき、喫緊かつ困難な課題です。

この記事では、実証済みのソリューションである合成データについて考察します。AlphaZeroやSoraをはじめとする研究は、合成データの計り知れない可能性を実証しています。高品質な合成テキストを生成することは言語モデルにとって困難ですが、既存データの最適化やマルチモーダルデータからの学習といった戦略によって、新たなデータの必要性を大幅に減らすことができる可能性があります。

もし合成データが学習データの不足という問題を真に解決できるのであれば、その影響は広範囲に及ぶでしょう。本稿では、インターネット業界の再編、独占禁止法の監視強化、公共データリソースへの投資拡大といった潜在的な影響についても分析しています。しかしながら、こうした予測は時期尚早かもしれません。私たちは冷静さを保ち、合成データ技術が今後どのようなブレークスルーを達成するのか、辛抱強く見守る必要があります。

この記事は、人工知能開発における大きなボトルネックである、高品質データの不足という問題に正面から取り組み、議論の余地はあるものの価値のある解決策を提案し、貴重な洞察を提供しています。私たちはこの技術分野の最新動向を今後も注視していきますので、どうぞお楽しみに!

著者 | ナビール・S・クレシ

編纂者:岳陽

大規模言語モデルは膨大な量のデータで学習され、そのデータセットは多くの図書館のコレクション全体に匹敵する規模です。しかし、ある日、利用可能なデータが枯渇してしまったらどうなるでしょうか?画像出典:Twitter[1]

01 データが足りませんか?

現代の大規模言語モデル(LLM)の重要な事実は、「データが王様」と要約できます。人工知能モデルの挙動は、学習に用いるデータセットに大きく依存します。その他の詳細(モデルアーキテクチャなど)は、データセットに計算能力を提供するための手段に過ぎません。クリーンで高品質なデータセットを持つことの価値は計り知れません。[1]

AIビジネスの実践において、データの重要性は明白です。OpenAIは最近、アクセル・シュプリンガー、エルゼビア、AP通信、その他のコンテンツ出版社やメディア大手とのデータ提携を発表しました。一方、ニューヨーク・タイムズ(NYT)は最近、OpenAIを提訴し、NYTのデータを用いてトレーニングしたGPTモデルの開発中止を求めました。一方、Appleはコンテンツ出版社と5,000万ドル以上のデータ提携を模索しています。現在の限界便益では、モデルがより多くのデータから得る便益は、単にモデルのサイズを大きくすることによる便益をはるかに上回ります。

学習コーパスの成長率は驚異的です。世界初の近代的なLLMは、知識の宝庫であるWikipediaで学習されました。GPT-3は3,000億トークン(単語、語根、句読点を含む)で学習され、GPT-4の学習データは驚異的な13兆トークンに達しました。自動運転車は数千時間分のビデオ録画から運転スキルを学習し、習得します。プログラミング支援においては、OpenAIのCopilotはGitHubにある数百万行に及ぶ人間が書いたコードに依存しています。

この状況は今後も続くのでしょうか?2022年にarXiv[2]に掲載された研究によると、高品質なデータが枯渇する段階に近づいており、その転換点は2023年から2027年の間に起こると予想されています。 (ここでいう高品質なデータには、Wikipedia、ニュース、コード、科学論文、書籍、ソーシャルメディアの会話、フィルタリングされたウェブページ、Redditなどのユーザー生成コンテンツが含まれます。)

この研究では、この高品質データのストックは約9e12語と推定されており、年間4%から5%の割合で増加しています。9e12とはどれくらいの量なのでしょうか?ちなみに、シェイクスピア全集は約90万語(9e5)です。比較すると、9e12はシェイクスピア全集の語数総計の1,000万倍という驚異的な数字です。

大まかな試算によると、真に人間レベルの人工知能を実現するためには、必要なデータ量が現在の5~6桁増加する可能性があります。つまり、少なくとも10万倍から100万倍のデータ量に拡大する必要があるということです。

まとめると、GPT-4は13兆トークンを使用しました。しかし、音声・動画素材、英語以外の言語データ、電子メール、テキストメッセージ、Twitterの投稿、デジタル化されていない書籍、企業の独自データなど、未開拓の領域にはマイニングを待つ豊富なデータが眠っています。これらのチャネルを通じて、現在保有しているデータの10倍から100倍の有用なデータを取得できる可能性がありますが、10万倍のデータを取得することは単なる夢物語です。

つまり、まだデータが十分ではないのです

さらに、既存のいくつかの不利な要因により、高品質のデータの取得がさらに困難になる可能性があります。

  • Reddit、Stack Overflow、Twitter/X など、ユーザー生成コンテンツ (UGC) に依存する Web サイトは、無料のデータ アクセスを遮断し、データの使用権に対して法外なライセンス料を請求しています。
  • 作家、芸術家、そしてニューヨーク・タイムズのような大手メディアでさえも、自分たちの作品がビッグ・ランゲージ・モデルによって許可なく「学習」に使用されていることに抗議し、権利獲得のための戦いで大きな前進を遂げている。
  • 大規模な言語モデルによって生成された低品質のコンテンツによってインターネットが徐々に圧倒されつつあることを懸念する人もいます。これにより、モデルの「ドリフト」(翻訳者注:モデルの継続的な学習または微調整中に、新しいデータの質が低い場合、モデルに望ましくない変更が生じる可能性があります)が発生するだけでなく、モデルの応答の品質が直接低下する可能性があります。

02 合成データ: 超知能の新たな夜明け?

これまでの分析に基づくと、やや悲観的な結論を導き出せるかもしれない。つまり、現状では超知能を訓練するにはデータが不十分だ、という結論だ。しかし、現時点でそのような判断を下すのは時期尚早だ。この問題を解決する鍵は、合成データ、つまり機械が自己学習のために自律的に生成するデータの作成にあるのかもしれない。

空想のように聞こえるかもしれませんが、一部の最先端の現代の AI システムは、実際には合成データを使用してトレーニングされています。

  • チェスに特化したAlphaZero[3]は、合成データを用いて学習されました。具体的には、 AlphaZeroは自身と対戦することでデータを生成し、それらの対戦から学習することで戦略を継続的に最適化します。(このデータは、実際の人間のチェスの棋譜を一切参照する必要がないため、合成データと呼ばれます。)
  • OpenAIの最新の成果の一つであるSora [4]を見てみましょう。この動画生成モデルは、簡単なテキスト指示に基づいて最長1分間の仮想動画を作成できます。その学習は、ビデオゲームエンジン(おそらくUnreal Engine 5)によって生成された合成データに基づいていると考えられます。つまり、SoraはYouTube動画や現実世界の映画だけでなく、ゲームエンジンによって構築された仮想環境からも学習します。

したがって、この技術はチェスや動画生成アプリケーションにおいて実証済みです。真の問題は、テキスト処理にも同様に応用できるかどうかです。ある意味では、学習用の高品質な動画データを作成することは、テキスト学習データを生成するよりもはるかに簡単です。必要なのは、iPhoneで日常生活の現実を捉えた動画を撮影することだけです。しかし、合成テキストデータが効果的な学習データとなるためには、高品質で、興味深く、そしてある意味で「リアル」でなければなりません。

重要なのは、価値ある合成データの作成は、単にテキストをゼロから作成するだけでは不十分だということです。例えば、最近発表された論文[5](2024年1月)では、大規模言語モデルを用いて取得したネットワークデータの表現力を向上させることで、学習結果を最適化するだけでなく、学習効率も向上させることができると指摘されています。場合によっては、データセット内の最も品質の悪いデータをフィルタリングして削除するだけで(「データセットプルーニング」と呼ばれるプロセス)、大規模言語モデルのパフォーマンスを大幅に向上させることができます。画像データに関するある研究では、さらに驚くべきことに、最高のモデルパフォーマンスを達成するには、データセット内の重要でない情報の最大90%を破棄する必要があることが判明しました。

今日、私たちは子供のように動画を観察し学習できる大規模言語モデルを所有しています。より高品質なマルチモーダルデータ(動画、音声、画像、テキストを含む)を取得する技術を解明すれば、大規模言語モデルが世界観の欠落部分を補うために必要な学習データの量は、これまで考えられていたよりもはるかに少ないことに驚くかもしれません。

03 合成データ生成の問題を解決した場合の影響

  1. 合成データ生成という課題を克服することは、人工知能(AI)分野の進歩を大きく加速させるでしょう。研究者による合成データ開発への現在の投資、この課題解決への強い意欲、そして他の分野で既に達成されている成功を考慮すると、今後数か月から数年のうちに合成データ生成において大きな進歩が遂げられ、AI技術の急速な発展をさらに促進すると確信しています。この技術革新は、大企業によって企業秘密として厳重に守られる可能性が高いでしょう。
  2. インターネット業界は再編され、広告への依存度が低下する可能性があります。従来、広告収入に大きく依存してきたインターネット企業は、学習データの生成と創出に重点を置く、全く新しいビジネスモデルへと移行する可能性があります。例えば、最近IPO(S-1)を申請したインターネット大手Redditは、収益の10%(約6,000万ドル)をデータ販売から得ており、この割合は今後も上昇すると予想されています。インターネットはユーザーデータ(レビュー、ツイート、コメントなど)を絶えず提供しており、こうした新鮮なデータの取得は非常に貴重です。これが事実であれば、大手企業は人工知能モデルの学習に役立てるため、より多くの価値の高い人工生成データを収集するために競争することになるでしょう。
  3. 独占禁止法の監視が強化される:RedditやElsevierといった高価値データソースの独占から生じる独占禁止法上の問題は、より厳格な監視に直面すると予想されます。潤沢な資金と膨大なデータセットを有する大手テクノロジー企業は、市場支配力をさらに強化し、中小企業の競争を困難にすることが予想されます。
  4. オープンソースプロジェクトは後れを取る可能性:規制当局は、データセットへの公平なアクセスを確保する方法を検討する必要があります。データセットを公共インフラとして扱うことや、一定の条件下でデータ共有要件を強制することも考えられます。より高品質で、フィルタリングされ、キュレーションされたデータセットを構築することは、学術界とオープンソースコミュニティが競争力を維持するために不可欠です。政府は、すべての大規模言語モデル(LLM)開発者のための中央データリポジトリを積極的に設立し、公平な競争環境の整備に貢献する可能性があります。しかし、短期的には、オープンソース開発者は民間ラボで作成された優れたモデルを微調整し続ける可能性が高いため、オープンソースプロジェクトは予見可能な将来において、民間ラボに遅れをとったままになる可能性があります。
  5. データは公共資源として共有されます。一部のデータは公共的な属性を有していますが、十分な投資が行われていないために十分に活用されていないことがよくあります。例えば、人間の倫理的嗜好を集約し、比較分析された公開データセットは、AI慈善プロジェクトへの公的資金や投資に適しています。同様の例は数多く存在します。

SF小説『デューン』では、幻覚剤のような物質(作中では「スパイス」として広く知られている)が銀河のかけがえのない宝として称賛されています。こうした状況を踏まえると、イーロン・マスク氏の最近のツイート[6]「データはスパイスだ」は非常に意義深いものです。AI研究室はこの点を深く理解しており、データの「いじくり回し」に尽力しています。

[注記] OpenAI の研究者による優れたブログ記事「AI モデルにおける『それ』はデータセットである」(https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/) では、次の点が適切に指摘されています。

AIモデルの動作特性は、そのアーキテクチャ、ハイパーパラメータ設定、あるいは最適化アルゴリズムの選択には依存しません。パフォーマンスを真に決定するのはデータセットそのものであり、それ以外は何も重要ではありません。すべてのアーキテクチャ、パラメータ、そして最適化手法は、最終的にはデータをより効率的に処理し、データセットの真のパフォーマンスに近づけることを目指しています。

読んでくれてありがとう!

ナビール・S・クレシはマーケタスの客員研究員です。彼の研究は、21世紀におけるAIの影響に焦点を当てています。

https://nabeelqu.co/

終わり

参考文献

[1] https://twitter.com/dieworkwear/status/1757203606221340858/photo/2

[2] https://arxiv.org/pdf/2211.04325.pdf

[3] https://en.wikipedia.org/wiki/AlphaZero

[4] https://openai.com/sora

[5] https://arxiv.org/pdf/2401.16380.pdf

[6] https://twitter.com/elonmusk/status/1727813282377957433

この記事は、原著者の許可を得てBaihai IDPによって翻訳されました。翻訳の転載をご希望の場合は、お問い合わせください。

オリジナルリンク:

https://digitalspirits.substack.com/p/is-synthetic-data-the-key-to-agi