|
著者 | Xiaoxi、Python もしあなたが大規模モデリングの全くの初心者だとしたら、 GPT、PaLm、LLaMAといった奇妙な言葉の組み合わせを初めて見たとき、どう思うでしょうか?さらに深く掘り下げていくと、BERT、BART、RoBERTa、ELMoといった奇妙な言葉が次々と現れてきたら、初心者のあなたはきっとイライラしてしまうのではないでしょうか? 大規模モデルの爆発的な成長に伴い、NLPのベテランでさえ、その起源や手法が分からず、一瞬圧倒されてしまうことがあります。そんな時こそ、大規模モデルのレビューが役立ちます!Amazon、テキサスA&M大学、ライス大学の研究者によるこのレビュー「実践における法学修士(LLM)の力を活用する:ChatGPTとその先に関する調査」は、ChatGPTを例に、大規模モデルの過去、現在、そして未来を「家系図」のように概観しています。具体的なタスクから始め、大規模モデルに関する包括的な実践ガイドを提供し、様々なタスクにおけるメリットとデメリットを概説し、最後に現在直面しているリスクと課題を明らかにしています。 論文タイトル: 論文リンク: プロジェクトホームページ: 家系図 – 大規模モデルの過去と現在大規模モデルにおける「諸悪の根源」の探求は、論文「Attention is All You Need(注意さえあればすべて)」から始まったと言えるでしょう。Googleの機械翻訳チームが提案した、複数のエンコーダとデコーダで構成されるTransformer機械翻訳モデルをベースに、大規模モデルの開発は大きく分けて2つの道を辿ってきました。1つはデコーダ部分を放棄し、エンコーダのみを事前学習済みモデルとして使用するもので、最も有名な例はBERTファミリーです。これらのモデルは、他の種類のデータと比較して入手しやすい大規模な自然言語データをより有効に活用するために、「教師なし事前学習」を試み始めました。この「教師なし」アプローチはマスク言語モデル(MLM)として知られており、文の一部をマスクすることで、モデルはコンテキストを用いてマスクされた単語を予測することを学習します。BERTが初めて導入されたとき、それはNLP分野における衝撃的な出来事でした。また、感情分析や固有表現抽出など、多くの一般的な自然言語処理タスクにおいて最先端の成果を達成しました。 Google が提案した BERT と ALBert に加えて、BERT ファミリーの他の優れた代表例としては、Baidu の ERNIE、Meta の RoBERTa、Microsoft の DeBERTa などがあります。 残念ながら、BERTのアプローチはスケール則を突破できませんでした。これは、現在の大規模言語モデルの主流である、エンコーダ部分を放棄しデコーダに焦点を当てた別の開発経路によって実際に達成された偉業です。GPTファミリーの成功は、研究者による驚くべき発見に端を発しています。「言語モデルをスケールアップすると、ゼロショット学習と少数ショット学習の能力が大幅に向上する可能性がある」。これは、微調整ベースのBERTファミリーとの大きな違いであり、現在の大規模言語モデルの驚くべき能力の源です。GPTファミリーは、先行する単語のシーケンスが与えられたときに次の単語を予測することでトレーニングされます。そのため、GPTは当初、テキスト生成モデルとして登場しました。GPT-3の出現は、GPTファミリーにとっての転換点となりました。GPT-3は、テキスト生成自体を超えた大規模モデルの驚くべき能力を初めて実証し、これらの自己回帰言語モデルの優位性を示しました。 GPT-3から始まり、現在のChatGPT、GPT-4、Bard、そしてPaLMやLLaMAが隆盛を極め、大規模モデルの黄金時代を築きました。 この系譜ツリーの2つの枝を統合すると、初期のWord2VecとFastText、事前学習済みモデルELMoとULFMiTの初期の探求、BERTの急速な台頭、GPTファミリーのGPT-3の驚異的なデビューまでの静かな取り組み、そしてChatGPTの急速な台頭を見ることができます。技術的な反復を超えて、OpenAIが独自の技術的道を静かに堅持し、最終的にLLMの誰もが認めるリーダーになったこともわかります。Googleはエンコーダー-デコーダーモデルアーキテクチャ全体に重要な理論的貢献をしており、Metaは大規模モデルのオープンソース化に継続的に寛大に参加しています。もちろん、GPT-3以降、LLMが徐々に「クローズド」ソース化していく傾向も見られ、将来的にはほとんどの研究がAPIベースの研究になる必要があるかもしれません。 データ—大規模モデルの原動力結局のところ、大規模モデルの驚異的な能力はGPTに由来するものなのでしょうか?答えはノーだと思います。GPTファミリーの機能におけるほぼすべての飛躍的進歩は、事前学習データの量、質、多様性を大幅に向上させてきました。大規模モデルの学習データには、書籍、記事、ウェブサイトの情報、コードなどが含まれます。これらのデータを大規模モデルに入力する目的は、「人間」の特性を包括的かつ正確に反映することです。モデルに単語、文法、構文、意味に関する情報を提供することで、モデルは文脈を認識し、一貫した応答を生成する能力を獲得し、それによって人間の知識、言語、文化などを捉えることができます。 一般的に、多くのNLPタスクは、データアノテーション情報に基づいて、ゼロショットタスク、少数ショットタスク、多数ショットタスクに分類できます。ゼロショットタスクにはLLMが最も適したアプローチであることは間違いありません。ほぼ例外なく、大規模モデルはゼロショットタスクにおいて他のモデルを大幅に上回ります。一方、少数ショットタスクも大規模モデルに適しています。大規模モデルに「質問と回答」のペアを提示することで、そのパフォーマンスを向上させることができます。このアプローチは一般にインコンテキスト学習と呼ばれています。大規模モデルは多数ショットタスクにも対応できますが、微調整が依然として最善のアプローチであると考えられます。もちろん、プライバシーや計算能力といった制約の下では、大規模モデルが依然として有効な手段となる可能性があります。 一方、微調整されたモデルは、トレーニングデータとテストデータの分布のばらつきという問題に直面する可能性があります。特に、微調整されたモデルは一般的にOODデータに対して非常に低いパフォーマンスを示します。対照的に、LLMは明示的なフィッティングプロセスを持たないため、はるかに優れたパフォーマンスを発揮します。典型的なChatGPT強化学習(RLHF)は、人間のフィードバックに基づくほとんどの分布外分類および翻訳タスクで優れたパフォーマンスを発揮し、OOD評価用に特別に設計されたDDXPlus医療診断データセットでも良好なパフォーマンスを発揮します。 実践ガイド - タスク指向学習のためのスターターモデル「大規模モデルは素晴らしい!」という主張の直後には、「大規模モデルはいつ、どのように使用すべきか?」という疑問がしばしば生じます。特定のタスクに直面したとき、大規模モデルを微調整するべきでしょうか、それとも何も考えずに大規模モデルに飛びつくべきでしょうか?本稿では、「人間を模倣する必要があるか?」「推論能力は必要か?」「マルチタスクか?」といった一連の質問に基づいて、大規模モデルを使用するかどうかを判断するのに役立つ実用的な「意思決定フロー」をまとめています。 NLPタスク分類の観点から: 従来の自然言語理解ラベル付きデータが豊富な多くのNLPタスクでは、微調整モデルが依然として大きな優位性を持つ可能性があります。ほとんどのデータセットにおいて、LLMは微調整モデルよりも劣っています。具体的には、
まとめると、従来の自然言語理解タスクのほとんどにおいて、ファインチューニングモデルの方が優れたパフォーマンスを発揮します。もちろん、LLMの潜在能力はPromptプロジェクトによって制限されており、まだ十分に発揮されていない可能性があります(実際、ファインチューニングモデルも限界に達していません)。さらに、その他テキスト分類や敵対的自然言語理解といったニッチな分野では、LLMはより強力な一般化能力により、より優れたパフォーマンスを発揮します。しかしながら、現時点では、適切にラベル付けされたデータを用いると、従来のタスクにおいては、ファインチューニングモデルが依然として最適なソリューションとなる可能性があります。 自然言語生成自然言語理解と比較すると、自然言語生成は大規模モデルの舞台と言えるでしょう。自然言語生成の目的は、主に、一貫性があり、流暢で、意味のある記号列を作成することです。自然言語生成は一般的に2つの主要なカテゴリーに分けられます。1つは機械翻訳や段落要約に代表されるタスク、もう1つはメール作成、ニュース記事の執筆、ストーリー作成といった、よりオープンエンドなタスクです。具体的には、
知識集約型タスク知識集約型タスクとは、一般的に、背景知識、分野特有の専門知識、あるいは一般的な世界知識に大きく依存するタスクを指します。単純なパターン認識や構文解析とは異なり、知識集約型タスクでは、現実世界の知識に対する「常識的な」理解と正しい適用が求められます。具体的には、以下のようになります。
大規模モデルは知識集約型タスクにおいて絶対確実ではないことに注意が必要です。大規模モデルが現実世界について持つ知識は、時に役に立たなかったり、誤っていたりすることがあります。このような「矛盾した」知識は、大規模モデルのパフォーマンスをランダム推測よりも低下させる可能性があります。例えば、数学を再定義するタスクでは、モデルは元の意味と再定義による意味のどちらかを選択する必要があります。これは、大規模言語モデルが学習する知識とは逆の能力を必要とします。そのため、LLMのパフォーマンスはランダム推測よりもさらに悪くなります。 推論課題LLMのスケーラビリティは、事前学習済み言語モデルの能力を大幅に向上させることができます。モデルサイズが指数関数的に増加するにつれて、パラメータの拡張に伴い、推論などの重要な能力が徐々に活性化されます。LLMの算術推論および常識推論能力は、以下のタスクにおいて非常に強力であることが明白です。
推論以外にも、モデルのサイズが大きくなるにつれて、確認操作、論理的推論、概念理解といった新たな能力も現れます。しかし、「U字型現象」と呼ばれる興味深い現象もあります。これは、LLMのサイズが大きくなるにつれて、モデルの性能が当初は向上し、その後低下し始めるという現象を指します。典型的な例は、前述の数学の再定義です。この現象は、大規模モデルの原理について、より深く詳細な研究を必要とします。 まとめ – 大規模モデルの課題と将来大規模言語モデルは、今後長きにわたり、私たちの仕事や生活に欠かせない存在となるでしょう。私たちの生活と密接に関わるこのような大規模システムにとって、パフォーマンス、効率性、コストといった問題に加え、大規模言語モデルのセキュリティは、おそらく最も重要な課題と言えるでしょう。機械錯視は、大規模モデルが現状では満足のいく解決策を欠いている大きな問題です。大規模モデルが出力する偏った、あるいは有害な錯視は、ユーザーに深刻な影響を及ぼす可能性があります。さらに、言語モデル(LLM)の「信頼性」が高まるにつれて、ユーザーはLLMに過度に依存し、正確な情報を提供できると信じるようになる可能性があり、これは大規模モデルのセキュリティリスクを増大させる予測可能な傾向です。 LLMで生成されるテキストは高品質かつ低コストであるため、誤解を招く情報となるだけでなく、ヘイトスピーチ、差別、暴力、噂の拡散といった攻撃のツールとして悪用される可能性があります。また、LLMは悪意のある攻撃者に違法な情報を提供したり、プライバシーを盗んだりするために攻撃される可能性もあります。サムスンの従業員が業務でChatGPTを使用していた際に、最新プログラムのソースコード属性やハードウェアに関する社内会議の議事録などの極秘データを誤って漏洩したという報告もあります。 さらに、大規模モデルが医療、金融、法律といったセンシティブな分野に適用できるかどうかの鍵は、「信頼性」の問題にあります。現状では、サンプル数が少ない大規模モデルの堅牢性は、しばしば低下します。さらに、法学修士課程には社会的バイアスや差別が存在することが示されており、多くの研究で、アクセント、宗教、性別、人種といった人口統計学的カテゴリー間で有意なパフォーマンスの違いが観察されています。これは、大規模モデルの「公平性」問題につながります。 最後に、社会問題を脇に置いてまとめ、大規模モデル研究の将来を見据えると、現在大規模モデルが直面している主な課題は以下のように分類できます。
|