大規模モデルの包括的な概要がここに！この記事では、世界的なAI大手による大規模モデルの進化を解説します。

出典: Xi Xiaoyao Tech Talk

Xi Xiaoyao テックトークオリジナル
著者 | Xiaoxi、Python

もしあなたが大規模モデリングの全くの初心者だとしたら、 GPT、PaLm、LLaMAといった奇妙な言葉の組み合わせを初めて見たとき、どう思うでしょうか？さらに深く掘り下げていくと、BERT、BART、RoBERTa、ELMoといった奇妙な言葉が次々と現れてきたら、初心者のあなたはきっとイライラしてしまうのではないでしょうか？

大規模モデルの爆発的な成長に伴い、NLPのベテランでさえ、その起源や手法が分からず、一瞬圧倒されてしまうことがあります。そんな時こそ、大規模モデルのレビューが役立ちます！Amazon、テキサスA&M大学、ライス大学の研究者によるこのレビュー「実践における法学修士（LLM）の力を活用する：ChatGPTとその先に関する調査」は、ChatGPTを例に、大規模モデルの過去、現在、そして未来を「家系図」のように概観しています。具体的なタスクから始め、大規模モデルに関する包括的な実践ガイドを提供し、様々なタスクにおけるメリットとデメリットを概説し、最後に現在直面しているリスクと課題を明らかにしています。

論文タイトル:
LLMの力を実践で活用する：ChatGPTとその先に関する調査

論文リンク:
https://arxiv.org/pdf/2304.13712.pdf

プロジェクトホームページ:
https://github.com/Mooler0410/LLMs実用ガイド

家系図 – 大規模モデルの過去と現在

大規模モデルにおける「諸悪の根源」の探求は、論文「Attention is All You Need（注意さえあればすべて）」から始まったと言えるでしょう。Googleの機械翻訳チームが提案した、複数のエンコーダとデコーダで構成されるTransformer機械翻訳モデルをベースに、大規模モデルの開発は大きく分けて2つの道を辿ってきました。1つはデコーダ部分を放棄し、エンコーダのみを事前学習済みモデルとして使用するもので、最も有名な例はBERTファミリーです。これらのモデルは、他の種類のデータと比較して入手しやすい大規模な自然言語データをより有効に活用するために、「教師なし事前学習」を試み始めました。この「教師なし」アプローチはマスク言語モデル（MLM）として知られており、文の一部をマスクすることで、モデルはコンテキストを用いてマスクされた単語を予測することを学習します。BERTが初めて導入されたとき、それはNLP分野における衝撃的な出来事でした。また、感情分析や固有表現抽出など、多くの一般的な自然言語処理タスクにおいて最先端の成果を達成しました。 Google が提案した BERT と ALBert に加えて、BERT ファミリーの他の優れた代表例としては、Baidu の ERNIE、Meta の RoBERTa、Microsoft の DeBERTa などがあります。

残念ながら、BERTのアプローチはスケール則を突破できませんでした。これは、現在の大規模言語モデルの主流である、エンコーダ部分を放棄しデコーダに焦点を当てた別の開発経路によって実際に達成された偉業です。GPTファミリーの成功は、研究者による驚くべき発見に端を発しています。「言語モデルをスケールアップすると、ゼロショット学習と少数ショット学習の能力が大幅に向上する可能性がある」。これは、微調整ベースのBERTファミリーとの大きな違いであり、現在の大規模言語モデルの驚くべき能力の源です。GPTファミリーは、先行する単語のシーケンスが与えられたときに次の単語を予測することでトレーニングされます。そのため、GPTは当初、テキスト生成モデルとして登場しました。GPT-3の出現は、GPTファミリーにとっての転換点となりました。GPT-3は、テキスト生成自体を超えた大規模モデルの驚くべき能力を初めて実証し、これらの自己回帰言語モデルの優位性を示しました。 GPT-3から始まり、現在のChatGPT、GPT-4、Bard、そしてPaLMやLLaMAが隆盛を極め、大規模モデルの黄金時代を築きました。

この系譜ツリーの2つの枝を統合すると、初期のWord2VecとFastText、事前学習済みモデルELMoとULFMiTの初期の探求、BERTの急速な台頭、GPTファミリーのGPT-3の驚異的なデビューまでの静かな取り組み、そしてChatGPTの急速な台頭を見ることができます。技術的な反復を超えて、OpenAIが独自の技術的道を静かに堅持し、最終的にLLMの誰もが認めるリーダーになったこともわかります。Googleはエンコーダー-デコーダーモデルアーキテクチャ全体に重要な理論的貢献をしており、Metaは大規模モデルのオープンソース化に継続的に寛大に参加しています。もちろん、GPT-3以降、LLMが徐々に「クローズド」ソース化していく傾向も見られ、将来的にはほとんどの研究がAPIベースの研究になる必要があるかもしれません。

データ—大規模モデルの原動力

結局のところ、大規模モデルの驚異的な能力はGPTに由来するものなのでしょうか？答えはノーだと思います。GPTファミリーの機能におけるほぼすべての飛躍的進歩は、事前学習データの量、質、多様性を大幅に向上させてきました。大規模モデルの学習データには、書籍、記事、ウェブサイトの情報、コードなどが含まれます。これらのデータを大規模モデルに入力する目的は、「人間」の特性を包括的かつ正確に反映することです。モデルに単語、文法、構文、意味に関する情報を提供することで、モデルは文脈を認識し、一貫した応答を生成する能力を獲得し、それによって人間の知識、言語、文化などを捉えることができます。

一般的に、多くのNLPタスクは、データアノテーション情報に基づいて、ゼロショットタスク、少数ショットタスク、多数ショットタスクに分類できます。ゼロショットタスクにはLLMが最も適したアプローチであることは間違いありません。ほぼ例外なく、大規模モデルはゼロショットタスクにおいて他のモデルを大幅に上回ります。一方、少数ショットタスクも大規模モデルに適しています。大規模モデルに「質問と回答」のペアを提示することで、そのパフォーマンスを向上させることができます。このアプローチは一般にインコンテキスト学習と呼ばれています。大規模モデルは多数ショットタスクにも対応できますが、微調整が依然として最善のアプローチであると考えられます。もちろん、プライバシーや計算能力といった制約の下では、大規模モデルが依然として有効な手段となる可能性があります。

一方、微調整されたモデルは、トレーニングデータとテストデータの分布のばらつきという問題に直面する可能性があります。特に、微調整されたモデルは一般的にOODデータに対して非常に低いパフォーマンスを示します。対照的に、LLMは明示的なフィッティングプロセスを持たないため、はるかに優れたパフォーマンスを発揮します。典型的なChatGPT強化学習（RLHF）は、人間のフィードバックに基づくほとんどの分布外分類および翻訳タスクで優れたパフォーマンスを発揮し、OOD評価用に特別に設計されたDDXPlus医療診断データセットでも良好なパフォーマンスを発揮します。

実践ガイド - タスク指向学習のためのスターターモデル

「大規模モデルは素晴らしい！」という主張の直後には、「大規模モデルはいつ、どのように使用すべきか？」という疑問がしばしば生じます。特定のタスクに直面したとき、大規模モデルを微調整するべきでしょうか、それとも何も考えずに大規模モデルに飛びつくべきでしょうか？本稿では、「人間を模倣する必要があるか？」「推論能力は必要か？」「マルチタスクか？」といった一連の質問に基づいて、大規模モデルを使用するかどうかを判断するのに役立つ実用的な「意思決定フロー」をまとめています。

NLPタスク分類の観点から:

従来の自然言語理解

ラベル付きデータが豊富な多くのNLPタスクでは、微調整モデルが依然として大きな優位性を持つ可能性があります。ほとんどのデータセットにおいて、LLMは微調整モデルよりも劣っています。具体的には、

テキスト分類: テキスト分類では、LLM のパフォーマンスは一般に、微調整されたモデルよりも劣ります。
感情分析: IMDB および SST タスクでは、大規模モデルと微調整されたモデルのパフォーマンスは同等でしたが、毒性監視などのタスクでは、ほぼすべての大規模モデルが微調整されたモデルよりも劣っていました。
自然言語推論: RTE および SNLI では、微調整モデルが LLM よりも優れています。CB およびその他のデータセットでは、LLM は微調整モデルに匹敵します。
Q&A : SQuADv2、QuAC、その他多くのデータセットでは、微調整モデルのパフォーマンスが向上しますが、CoQA では、LLM は微調整モデルと同様のパフォーマンスを発揮します。
情報検索：LLMは情報検索分野ではまだ広く利用されていません。情報検索のタスク特性上、大規模な情報検索タスクを自然にモデル化する方法を見つけることは困難です。
固有表現抽出：固有表現抽出において、大規模モデルは依然として微調整モデルに比べて大幅に劣っています。CoNLL03では、微調整モデルの性能は大規模モデルのほぼ2倍です。しかしながら、自然言語処理における古典的な中間タスクである固有表現抽出は、将来的には大規模モデルに置き換えられる可能性が高いと考えられます。

まとめると、従来の自然言語理解タスクのほとんどにおいて、ファインチューニングモデルの方が優れたパフォーマンスを発揮します。もちろん、LLMの潜在能力はPromptプロジェクトによって制限されており、まだ十分に発揮されていない可能性があります（実際、ファインチューニングモデルも限界に達していません）。さらに、その他テキスト分類や敵対的自然言語理解といったニッチな分野では、LLMはより強力な一般化能力により、より優れたパフォーマンスを発揮します。しかしながら、現時点では、適切にラベル付けされたデータを用いると、従来のタスクにおいては、ファインチューニングモデルが依然として最適なソリューションとなる可能性があります。

自然言語生成

自然言語理解と比較すると、自然言語生成は大規模モデルの舞台と言えるでしょう。自然言語生成の目的は、主に、一貫性があり、流暢で、意味のある記号列を作成することです。自然言語生成は一般的に2つの主要なカテゴリーに分けられます。1つは機械翻訳や段落要約に代表されるタスク、もう1つはメール作成、ニュース記事の執筆、ストーリー作成といった、よりオープンエンドなタスクです。具体的には、

テキスト要約：テキスト要約において、ROUGEなどの従来の自動評価指標を用いた場合、LLMは大きな優位性を示しません。しかし、人間による評価結果を組み込むと、LLMは微調整されたモデルよりも大幅に優れたパフォーマンスを発揮します。これは、現在の自動評価指標では、テキスト生成の有効性を完全に正確に反映できない場合があることを示しています。
機械翻訳：成熟した商用ソフトウェアを用いた機械翻訳のようなタスクでは、LLMは一般的に商用翻訳ツールよりもわずかに劣るパフォーマンスを示します。しかし、あまり一般的ではない言語の翻訳では、LLMの方が優れた結果を示す場合があります。例えば、ルーマニア語から英語への翻訳タスクでは、LLMはゼロショットおよび少数ショットのシナリオにおいて、微調整されたモデルの最新鋭度（SOTA）を上回るパフォーマンスを示しました。
オープン生成：オープン生成は、大規模モデルが最も得意とする分野です。LLMによって生成されたニュース記事は、人間が書いた実際のニュースとほとんど区別がつきません。LLMは、コード生成、コード修正、その他の分野で驚異的なパフォーマンスを発揮しています。

知識集約型タスク

知識集約型タスクとは、一般的に、背景知識、分野特有の専門知識、あるいは一般的な世界知識に大きく依存するタスクを指します。単純なパターン認識や構文解析とは異なり、知識集約型タスクでは、現実世界の知識に対する「常識的な」理解と正しい適用が求められます。具体的には、以下のようになります。

クローズドブック質問応答：クローズドブック質問応答タスクでは、モデルは外部情報なしに事実に関する質問に答える必要があります。LLMは、NaturalQuestions、WebQuestions、TriviaQAなどの多くのデータセットにおいて優れたパフォーマンスを示しています。特にTriviaQAでは、ゼロショットLLMがファインチューニングされたモデルよりも優れた性別識別性能を示しました。
大規模マルチタスク言語理解：大規模マルチタスク言語理解（MMLU）には、57の異なるトピックに関する多肢選択問題が含まれており、モデルには一般知識が求められます。このタスクで最も優れたモデルはGPT-4で、MMLUで86.5%の精度を達成しました。

大規模モデルは知識集約型タスクにおいて絶対確実ではないことに注意が必要です。大規模モデルが現実世界について持つ知識は、時に役に立たなかったり、誤っていたりすることがあります。このような「矛盾した」知識は、大規模モデルのパフォーマンスをランダム推測よりも低下させる可能性があります。例えば、数学を再定義するタスクでは、モデルは元の意味と再定義による意味のどちらかを選択する必要があります。これは、大規模言語モデルが学習する知識とは逆の能力を必要とします。そのため、LLMのパフォーマンスはランダム推測よりもさらに悪くなります。

推論課題

LLMのスケーラビリティは、事前学習済み言語モデルの能力を大幅に向上させることができます。モデルサイズが指数関数的に増加するにつれて、パラメータの拡張に伴い、推論などの重要な能力が徐々に活性化されます。LLMの算術推論および常識推論能力は、以下のタスクにおいて非常に強力であることが明白です。

算術推論：GPT-4の算術推論能力は、これまでのどのモデルをも凌駕すると言っても過言ではありません。GSM8k、SVAMP、AQuAといった大規模モデルにおいて、画期的な性能を発揮します。特に注目すべきは、思考連鎖（CoT）のヒント法によってLLMの計算能力が大幅に向上することです。
常識的推論：常識的推論には、事実情報を記憶し、多段階の推論を実行するための大規模なモデルが必要です。ほとんどのデータセットにおいて、LLMは微調整されたモデルに対して優位性を維持しており、特にARC-C（小学3年生から中学3年生向けの難解な理科試験問題）では、GPT-4はほぼ100%（96.3%）の性能を発揮しています。

推論以外にも、モデルのサイズが大きくなるにつれて、確認操作、論理的推論、概念理解といった新たな能力も現れます。しかし、「U字型現象」と呼ばれる興味深い現象もあります。これは、LLMのサイズが大きくなるにつれて、モデルの性能が当初は向上し、その後低下し始めるという現象を指します。典型的な例は、前述の数学の再定義です。この現象は、大規模モデルの原理について、より深く詳細な研究を必要とします。

まとめ – 大規模モデルの課題と将来

大規模言語モデルは、今後長きにわたり、私たちの仕事や生活に欠かせない存在となるでしょう。私たちの生活と密接に関わるこのような大規模システムにとって、パフォーマンス、効率性、コストといった問題に加え、大規模言語モデルのセキュリティは、おそらく最も重要な課題と言えるでしょう。機械錯視は、大規模モデルが現状では満足のいく解決策を欠いている大きな問題です。大規模モデルが出力する偏った、あるいは有害な錯視は、ユーザーに深刻な影響を及ぼす可能性があります。さらに、言語モデル（LLM）の「信頼性」が高まるにつれて、ユーザーはLLMに過度に依存し、正確な情報を提供できると信じるようになる可能性があり、これは大規模モデルのセキュリティリスクを増大させる予測可能な傾向です。

LLMで生成されるテキストは高品質かつ低コストであるため、誤解を招く情報となるだけでなく、ヘイトスピーチ、差別、暴力、噂の拡散といった攻撃のツールとして悪用される可能性があります。また、LLMは悪意のある攻撃者に違法な情報を提供したり、プライバシーを盗んだりするために攻撃される可能性もあります。サムスンの従業員が業務でChatGPTを使用していた際に、最新プログラムのソースコード属性やハードウェアに関する社内会議の議事録などの極秘データを誤って漏洩したという報告もあります。

さらに、大規模モデルが医療、金融、法律といったセンシティブな分野に適用できるかどうかの鍵は、「信頼性」の問題にあります。現状では、サンプル数が少ない大規模モデルの堅牢性は、しばしば低下します。さらに、法学修士課程には社会的バイアスや差別が存在することが示されており、多くの研究で、アクセント、宗教、性別、人種といった人口統計学的カテゴリー間で有意なパフォーマンスの違いが観察されています。これは、大規模モデルの「公平性」問題につながります。

最後に、社会問題を脇に置いてまとめ、大規模モデル研究の将来を見据えると、現在大規模モデルが直面している主な課題は以下のように分類できます。

実践的な検証の結果、大規模モデルの評価データセットは、現状では「おもちゃ」のような、いわば学術的なデータセットであることがしばしばあります。しかし、これらの学術的なデータセットは、現実世界の多様な問題や課題を十分に反映できていません。そのため、モデルが現実世界の課題に対応できることを確認するために、実際のデータセットを用いて、多様で複雑な現実世界の課題に対するモデルの評価を緊急に行う必要があります。
モデルの整合性：大規模モデルの威力は、別の問題も引き起こします。モデルの挙動が期待通りであり、悪い結果を「強化」しないことを保証するために、モデルは人間の価値観と整合させる必要があります。高度で複雑なシステムであるため、この倫理的問題に真剣に取り組まなければ、人類にとって大きな災厄をもたらす可能性があります。
安全性への懸念：大規模モデルの研究では、安全性の問題をさらに重視し、安全上の危険を排除する必要があります。大規模モデルの安全な開発を確保するために、具体的な研究が必要です。モデルの解釈可能性を向上させ、監督・管理するためのさらなる努力が必要です。安全性の問題は、オプションの飾りではなく、モデル開発の重要な部分であるべきです。
モデルの未来：モデルの性能はモデルサイズの増加とともに向上し続けるのでしょうか？これはOpenAIでさえ答えるのが難しい質問です。大規模モデルの驚くべき現象に対する私たちの理解は依然として非常に限られており、大規模モデルの根底にある原理に関する私たちの洞察は依然として非常に貴重です。

HUOXIU