著者| スティーブン・オーンズ 編纂者:岳陽 これらの絵文字は何の映画を表していますか?ご存知ですか? この質問は、ChatGPTのようなAIチャットボットを支える計算エンジンである大規模言語モデル(LLM)の能力をテストするために昨年選ばれた204のタスクの1つでした。最も単純なLLMの1つは、「この映画は、男である男である男についての映画です」という非論理的な答えを出し始めました。中程度の複雑さのモデルはより近い答えを出し、「絵文字の映画」と推測しました。しかし、最も複雑なモデルは最初の試みで「ファインディング・ニモ」と正しく推測しました。 「驚くような結果になることは覚悟していましたが、それでもこれらのモデルの能力には驚きました」と、テストの企画に関わったGoogle Researchのコンピュータサイエンティスト、イーサン・ダイアー氏[1]は述べています。特に驚くべきは、これらのモデルに与えられた指示がたった一つ、つまり、テキスト文字列を入力として受け取り、純粋な数理統計に基づいて返答内容を推測するというものだったということです。コンピュータサイエンティストたちは、モデルの規模を大きくすることで既知のタスクのパフォーマンスが向上することは予想していましたが、これらのモデルが突如としてこれほど多くの新しい予測不可能なタスクを処理できるようになるとは予想していませんでした。 最近の研究(例えばDyerらの研究)では、LLMが数百もの「創発的」能力を生み出すことが明らかになっています。その多くは、大規模モデルでは実行できても小規模モデルでは実行できないテキスト分析とは無関係のタスクです。これらの「創発的」能力は、乗算の実行から実行可能なコンピュータコードの生成、絵文字に基づいた映画タイトルのデコードまで多岐にわたります。新たな研究分析によると、特定のタスクや特定のモデルには複雑さの閾値があり、それを超えるとモデルのパフォーマンスが劇的に向上することが示されています。 (これはマイナスの影響も示唆しています。複雑さが増すにつれて、一部のモデルは応答に新たなバイアスや不正確さを生み出す可能性があります。 ) 「私が知る限り、言語モデルで何ができるかについて議論された文献はこれまで一度もありませんでした」とスタンフォード大学のコンピューター科学者リシ・ボンマサニ氏は述べている。[2] 昨年、同氏はダイアープロジェクトで発見されたいくつかの行動を含む数十の新たな行動のリストの作成に協力し[3]、リストは現在も増え続けている。[4] 研究者たちは今、新たな「創発的」能力の発見に奔走しているだけでなく、それらがなぜ、どのように出現するのかを理解しようともしています。つまり、本質的には予測不可能性を予測しようとしているのです。「創発」を理解することで、複雑なモデルが真に革新的なのか、それとも単に数理統計学の分野で優れているだけなのかなど、AIや機械学習に関する多くの疑問への答えが明らかになるかもしれません。また、研究者が潜在的なメリットを最大化し、同時に新たなリスクを軽減するのにも役立ちます。 「被害がどのような形になるのか、スムーズで何事もなく終わるのか、それとも予測不可能なものになるのか、判断方法が分からない」とAIスタートアップ企業アンスロピックのコンピューター科学者ディープ・ガングリ氏は述べた。[5] 01 「創発」の出現生物学者、物理学者、生態学者、そして他の分野の科学者たちは、多数のものが全体として行動する際に生じる自己組織化的な集団行動を説明する際に「創発」という用語を使用します。例えば、無生物の原子が結合して細胞を形成し、水分子が波を形成し、ツバメの群れが空を飛び、絶えず変化しながらも認識可能なパターンを作り出し、細胞が筋肉の動きや心拍を可能にします。重要なのは、「創発」能力が多数の個体を含むシステムで発生することです。しかし、LLMモデルの継続的な拡張により、研究者がこれらの能力を文書化できるようになったのはごく最近のことです。 言語モデルは何十年も前から存在しています。約 5 年前まで、最も強力なモデルは、いわゆるリカレント ニューラル ネットワークをベースにしたものでした。これらのニューラル ネットワークは、テキストの一部を入力として受け取り、出力で次の単語を継続的に予測します。モデルが「リカレント」と呼ばれるのは、自身の出力から学習し、予測をニューラル ネットワークにフィードバックして、将来の予測のパフォーマンスを向上させることを目的としているためです。2017年に、Google Brain の研究者は、トランスフォーマー[6] と呼ばれる新しいアーキテクチャを導入しました。文章を単語ごとに分析するリカレント ネットワークとは異なり、トランスフォーマーはすべての単語を同時に処理できます。つまり、トランスフォーマーは大量のテキストを並列に処理できます。トランスフォーマーは、モデル内のパラメーターの数を増やすなどして、言語モデルの複雑さを急速に増加させます。これらのパラメーターは単語間のつながりと考えることができ、モデルはトレーニング中にこれを調整してパフォーマンスを向上させます。 モデルのパラメータが多いほど、より正確に接続を確立でき、人間の言語をより忠実に模倣できるようになります。OpenAIの研究者が2020年に発見したように[7]、モデルのサイズが大きくなるにつれて、モデルの精度と機能も向上します。 しかし、LLMの登場は予想外の事態ももたらしました。1750億のパラメータを持つGPT-3や、5400億のパラメータまで拡張可能なGoogleのPaLMといったモデルの登場により、ユーザーはますます多くの「創発的な」動作を記述するようになりました。DeepMindのあるエンジニアは[8]、ChatGPTにLinux端末だと認識させ、簡単な数学計算を実行させて最初の10個の素数を計算させたと主張しました。驚くべきことに、ChatGPTは実際のLinuxマシンで同じプログラムを実行するよりも速くタスクを完了することができました。 映画絵文字タスクと同様に、研究者たちはテキスト予測に基づいて構築された言語モデルがLinuxコンピュータ端末をシミュレートできると信じる理由はありません。これらの「創発的」行動の多くは「ゼロショット」学習または「少数ショット」学習の特徴を示しており、LLMがこれまで遭遇したことのない、あるいはめったに遭遇しない問題を解決する能力を持っていることを示しています。これはAI研究の長年の目標だとガングリ氏は述べています。明示的な訓練データなしでゼロショット条件下で問題を解決できるGPT-3の能力によって、「他の作業を中断して、この仕事にもっと没頭することができた」と彼は述べています。 彼だけではありません。多くの研究者が、LLMが訓練データの限界を超えている兆候に気づき、「創発」現象の形態とメカニズムを解明しようと懸命に取り組んでいます。まずは、それを徹底的に文書化することです。 Ethan Dyer は、大規模言語モデルが持つ可能性のある予測不可能な機能と、そのような機能が発生する理由の調査に協力しました。 02 模倣を超えて2020年、ダイアー氏とGoogle ResearchはLLMが変革をもたらすと予測しましたが、その影響がどのようなものかは未だに不明でした。そこで彼らは、LLMの限界を理解するために、研究コミュニティに対し、難易度や多様性の異なるタスクの事例を提供するよう要請しました。 「模倣ゲームベンチマークを超えて」(BIG-bench)プロジェクトとして知られるこの研究は、アラン・チューリングの「模倣ゲーム」にちなんで名付けられました。これは、コンピュータが人間のように質問に答えられるかどうかをテストするテストであり、後にチューリングテストとして知られるようになりました。チームは特に、LLMがこれまで全く存在しなかった全く新しい能力を突然獲得する事例に興味を持っていました。 「こうした変化をどう理解するかは、大きな研究課題だ」とダイアー氏は語った。 予想通り、一部のタスクでは、モデルのパフォーマンスは複雑さが増すにつれて予測通り着実に向上しました。他のタスクでは、パラメータのサイズを大きくしても改善は見られませんでした。しかし、約5%のタスクでは、研究者たちは「ブレイクスルー」と呼ばれる現象が見られたことを発見しました。これは、タスクやモデルによって異なる特定の閾値スケールにおいて、パフォーマンスが急速かつ劇的に向上することを意味します。 例えば、数百万のパラメータを持つモデルでは、3桁の加算問題や2桁の乗算問題を解くことができない場合があります。しかし、数十億のパラメータを持つモデルでは、一部のモデルは劇的な精度向上を示します。国際音声記号(IAP)の解読、単語のスペル、ヒンディー語と英語の混合語であるヒングリッシュにおける不適切なコンテンツの認識、スワヒリ語のことわざの英語表現の生成といった他のタスクでも、同様の飛躍的な向上が見られます。 しかし、研究者たちはすぐに、モデルの複雑さだけが推進要因ではないことに気づきました。パラメータの少ないモデルや、より小さなデータセットでトレーニングされたモデルでも、データの品質が十分に高ければ、予期せぬ能力を発揮する可能性があります。 さらに、質問の文言もモデルの回答精度に影響を与えます。例えば、ダイアー氏とその同僚が多肢選択式を用いて映画の絵文字に関する課題を出題したところ、精度は急激に向上したわけではなく、モデルの複雑さが増すにつれて徐々に向上しました。昨年、この分野の旗艦会議であるNeurIPS[9]で、Google Brainの研究者たちは、自己説明(思考連鎖推論と呼ばれる機能)を必要とするモデルは数学の文章題を正しく解くことができる一方、自己説明を必要としないモデルは正しく解くことができないことを示す論文を発表しました。 Google Brainの科学者で、ブレークスルーの体系的な調査に尽力するYi Tay氏[10]は、最近の研究で思考の連鎖を促すことでスケーリング曲線が変化し、「創発」が発生する場所が変化することが示されていると指摘しています。NeurIPSの論文では、Googleの研究者らは思考の連鎖を促すことで、BIGベンチの研究では見られなかった創発行動が引き起こされることを実証しました。このような促しには、その推論プロセスを説明するモデルが必要であり、研究者が「創発」行動が発生する理由を探求するのに役立つ可能性があります。 ブラウン大学で言語の計算モデルを研究しているコンピュータ科学者、エリー・パヴリック[11]は、これらの発見は、なぜ創発が起こるのかについて少なくとも2つの説明を示唆していると述べています。1つは、生物システムと比較することで、より大きなモデルが実際に自発的に新しい能力を獲得することがわかるというものです。 彼女は、「モデルが、小規模なモデルには存在しない、根本的に新しくユニークな何かを学習している可能性は十分にあります。私たち皆が期待しているのは、モデルがスケールアップするにつれて、何らかの根本的な変化が起こることです」と述べました。彼女はさらに、それほど驚くことではないもう一つの可能性として、一見すると創発的に見えるものが、実際には思考連鎖推論を通じて機能する統計に基づく内部プロセスである可能性を挙げました。大規模なLLMは、パラメータの少ないモデルや低品質のデータで訓練されたモデルでは学習できないような、単にヒューリスティックを学習しているだけなのかもしれません。 彼女はまた、どちらの可能性がより可能性が高いかを判断するには、法学修士課程(LLM)の仕組みをより深く理解する能力が重要だと説明した。「法学修士課程の仕組みが根本的にわからないため、上記の可能性のうちどれが真実なのかを判断することはできません。」 03 予測不能な力と落とし穴これらのモデルに、彼らが抱える明らかな問題点を説明するよう求めると、彼らは「悪名高い詐欺師」であるということになる。ガングリ氏は、「私たちは日々の基本業務をこなすために、これらのモデルにますます頼っていますが、私は彼らを完全に信頼することはなく、彼らの仕事ぶりを検証するつもりです」と述べた。興味深い例として、今年2月にGoogleがBardというAIチャットボットをリリースしたが、Bardをリリースしたブログには、Bardが事実誤認を犯していたことが記されている。[12] 出現は予測不可能性をもたらし、モデルが成長するにつれて予測不可能性が増すため、モデルが広く使用されるようになったときにどのような問題に遭遇するかを研究者が予測することが難しくなります。 「これらのモデルがどのように利用され、展開されるかを事前に知ることは困難です」とガングリ氏は述べた。「そして、新たな現象を研究するにはユースケースが必要です。そして、モデルのサイズがどのような影響を与えるかを研究するまで、どのような機能や限界が現れる可能性があるかはわかりません。」 昨年6月に発表されたLLM分析[13]において、アントロピックの研究者たちは、これらの大規模言語モデルが特定の種類の人種差別や社会的バイアスを示すかどうかを調査しました。これは、LLMに基づかないアルゴリズムを用いて前科者の再犯の可能性を予測した過去のメディア報道[14]と同様です。この研究は、創発に直接関連する明確なパラドックスに着想を得ています。つまり、モデルの性能はスケールするにつれて向上する一方で、バイアスや危害につながる可能性のあるものも含め、予測不可能な現象の発生確率も高まる可能性があるということです。 ガングリ氏は、「一部のモデルでは、特定の有害な行動が突然出現する可能性がある」と述べた。彼は、LLM[15]の最近の分析であるBBQベンチマークを例に挙げ、パラメータ数の増加に伴い社会的バイアスが出現することを示した。「大規模なモデルは突然、バイアスが大きくなる可能性がある」と述べ、このリスクに対処しなければ、モデルの核心を危険にさらす可能性があると付け加えた。 しかし彼は、研究者がモデルにステレオタイプや社会的バイアスに頼らないように指示するだけで、つまり、これらの指示を入力するだけで、モデルの予測と応答におけるバイアスは減少すると反論した。これは、バイアスを低減するために何らかの「創発特性」も利用できる可能性があることを示唆している。今年2月に発表された論文[16]で、アントロピックのチームは、ユーザーのプロンプトによってプログラムが有用で、誠実で、無害であることを要求するという、新たな「道徳的自己修正」モデルを提案した。 ガングリ氏は、 「創発」という現象は、その途方もない可能性と、それがもたらす予測不可能なリスクの両方を示していると述べた。これらの大規模言語モデル(LLM)の応用は絶えず拡大しており、それらの相互作用をより深く理解することで、言語モデルの多様な機能を最大限に活用できるようになるだろう。「私たちは、人々がこれらのシステムをどのように使用するかを検討しています」とガングリ氏は述べた。しかし同時に、ユーザーは常に実験を続けている。「私たちはモデルと対話することに多くの時間を費やしています」と彼は述べた。「まさにそこで、信頼感、あるいは信頼の欠如を感じ始めるのです。」 終わり 参考文献 1.https://research.google/people/107626/ 2.https://profiles.stanford.edu/rishi-bommasani 3.https://openreview.net/forum?id=yzkSU5zdwD 4.https://www.jasonwei.net/blog/emergence 5.https://hai.stanford.edu/people/deep-ganguli 6.https://www.quantamagazine.org/will-transformers-take-over-artificial-intelligence-20220310/ 7.https://arxiv.org/abs/2001.08361 8. https://www.engraved.blog/ 9.https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=54087 10. https://www.yitay.net/ 11.https://cs.brown.edu/people/epavlick/ 12.https://www.theverge.com/2023/2/8/23590864/google-ai-chatbot-bard-mistake-error-exoplanet-demo 13.https://dl.acm.org/doi/abs/10.1145/3531146.3533229 14.https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3333423 15.https://arxiv.org/abs/2110.08193 16.https://arxiv.org/abs/2302.07459 この記事は、原著者の許可を得てBaihai IDPによって翻訳されました。翻訳の転載をご希望の場合は、お問い合わせください。 オリジナルリンク: https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316 |