HUOXIU

古典を掘り下げることで、大規模モデルの進化をたどることができます。

編集者注: わずか 5 年で、大規模な言語モデルとトランスフォーマーによって自然言語処理の分野はほぼ完全に変化しました。

この記事では、大規模言語モデルを素早く確実に深く学習できるように、機械学習の研究者や開発者が参考にできる、古典的な学術リソースの簡単なリストをまとめています。

翻訳はこちらです。お楽しみください!

この記事は、原著者の許可を得てBaihai IDPによって翻訳されました。翻訳の転載をご希望の場合は、お問い合わせください。

オリジナルリンク:

https://magazine.sebastianraschka.com/p/understanding-large-language-models

著者|セバスチャン・ラシュカ

編纂者:岳陽

大規模言語モデルは世界を席巻しました。これは決して誇張ではありません。わずか5年で、大規模言語モデルとトランスフォーマーは自然言語処理の分野をほぼ完全に変革しました。さらに、コンピュータービジョンや計算生物学といった分野にも革新的な変化をもたらし始めています。

トランスフォーマーはすべての人の研究課題に大きな影響を与えるため、機械学習の研究者や開発者が始めたばかりの方に参考としていただけるよう、古典的な学術リソースの簡単なリストをまとめたいと思います。

以下の学術資料は主に時系列順にまとめられており、主に学術研究論文で構成されています。もちろん、他にも役立つ学術リソースは数多くあります。例えば:

  1. ジェイ・アラマー著『イラスト・トランスフォーマー』[1]

  2. リリアン・ウェンのより技術的に詳しいブログ記事「トランスフォーマーファミリー」[2]

  3. Xavier Amatriainの「Transformerモデル:入門とカタログ - 2023年版」では、すべての重要なTransformerモデルとその系図を紹介しています[3]。

  4. Andrej Karpathyは生成言語モデルを実装するための最も簡単な方法を紹介した[4]。

また、私自身(原著者)による一連の講義[5]や書籍[6]の関連章もあります。

01主要なモデルアーキテクチャとタスクを理解する

これまでにトランスフォーマー モデルや大規模言語モデルを使用したことがない場合は、最初から学習を始めるのが最善です。

(1) アライメントと翻訳を共同学習するニューラル機械翻訳 (2014) Bahdanau、Cho、Bengio著、 https://arxiv.org/abs/1409.0473

十分な時間に余裕があれば、上記の論文から始めることをお勧めします。この論文では、リカレントニューラルネットワーク(RNN)の長距離シーケンスモデリング能力を向上させるためのアテンションメカニズムが紹介されています。これにより、RNNはより長い文をより正確に翻訳できるようになります。これが、後にオリジナルのTransformerモデルアーキテクチャが開発されるきっかけとなりました。

出典: https://arxiv.org/abs/1409.0473

(2) 「Attention Is All You Need」(2017)、Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser、および Polosukhin 著、 https://arxiv.org/abs/1706.03762

前述の論文では、エンコーダとデコーダで構成される初期のTransformerアーキテクチャが紹介されており、これらは後に独立したモジュールとして関連付けられることになります。さらに、スケールドドット積アテンションメカニズム、マルチヘッドアテンションブロック、位置入力エンコーディングといった、現代のTransformerモデルの基礎となっている概念も紹介されています。

出典: https://arxiv.org/abs/1706.03762

(3) BERT: 言語理解のための深層双方向変換の事前学習 (2018) Devlin、Chang、Lee、Toutanova著、 https://arxiv.org/abs/1810.04805

  • オリジナルのトランスフォーマーアーキテクチャに基づいて、大規模言語モデルの研究は2つの方向に分岐し始めました。

  • エンコーダー スタイルのトランスフォーマーは、テキスト分類などの予測言語モデリング タスクに使用されます。デコーダー スタイルのトランスフォーマーは、翻訳、要約、その他の形式のテキスト作成などの生成言語モデリング タスクに使用されます。

前述のBERT論文は、マスク言語モデリングという独自の概念を導入しましたが、次文予測はデコーダー型のアーキテクチャとして依然として影響力を持っています。この研究分野にご興味をお持ちの方は、RoBERTa[7]を読み進めることをお勧めします。RoBERTaでは、次文予測タスクを削除することで事前学習の目的を簡素化しています。

出典: https://arxiv.org/abs/1810.04805

(4) 生成的事前トレーニングによる言語理解の向上 (2018) ラドフォードとナラシムハン著、 https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

GPTの論文では、現在普及しているデコーダー型のアーキテクチャを導入し、次単語予測を用いて事前学習を行っています。BERTはマスクされた言語モデルの事前学習目的を使用しているため、双方向の変換モデルと見なすことができます。一方、GPTは単方向の自己回帰モデルです。GPTの埋め込みは分類にも使用できますが、GPTアプローチは現在、ChatGPTなどの非常に影響力のあるLLMの中核を成しています。

この研究分野に興味をお持ちの方は、次にGPT-2とGPT-3の論文を読むことをお勧めします。これら2つの論文は、LLMがゼロショット学習および少数ショット学習を実現できることを示し、LLMの「創発的」な能力を強調しています。GPT-3は、ChatGPTなどの最新世代のLLMのベースラインモデルであり、基盤モデルとなっています。ChatGPTの鍵となるInstructGPT法については、別の記事で別途紹介します。

出典: https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

(5) BART:自然言語生成、翻訳、理解のためのシーケンス間ノイズ除去事前トレーニング (2019)、Lewis、Liu、Goyal、Ghazvininejad、Mohamed、Levy、Stoyanov、Zettlemoyer、 https://arxiv.org/abs/1910.13461

前述のように、BERT型のエンコーダ型LLMは一般的に予測モデリングタスクに適しており、GPT型のデコーダ型LLMはテキスト生成に優れています。両者の利点を組み合わせるために、前述のBART論文ではエンコーダ部分とデコーダ部分を統合しています(これは、このリストの2番目の論文であるオリジナルのトランスフォーマーに似ています)。

出典: https://arxiv.org/abs/1910.13461

(6) ヤン、ジン、タン、ハン、フェン、ジャン、イン、フー著『LLMの実践における力の活用:ChatGPTとその先に関する調査(2023年)』 https://arxiv.org/abs/2304.13712

これは研究論文ではありませんが、現在の主要なモデルアーキテクチャに関するこれまでで最も優れたサーベイと言えるでしょう。様々なアーキテクチャがどのように進化してきたかを示しています。BERTスタイルのマスク付き言語モデル(エンコーダ)とGPTスタイルの自己回帰言語モデル(デコーダ)について議論しながらも、本論文は事前学習とデータのファインチューニングに関する貴重な議論とガイダンスも提供しています。

現代の LLM の進化ツリー (https://arxiv.org/abs/2304.13712 より)。

02スケーリングの法則と効率性の向上

変圧器の効率向上に役立つ技術について知りたい場合は、2020年に出版された論文「効率的な変圧器:調査」[8]と2023年に出版された論文「変圧器の効率的なトレーニングに関する調査」[9]を読むことをお勧めします。

さらに、特に興味深く、読む価値があると感じた論文がいくつかあります。

(7) FlashAttention: IO認識を備えた高速でメモリ効率の高い正確なアテンション(2022)、Dao、Fu、Ermon、Rudra、Ré著、 https://arxiv.org/abs/2205.14135

トランスフォーマーに関するほとんどの論文では、セルフアテンションを実現するために元のスケールされたドット積メカニズムを置き換えることについては触れられていませんが、FlashAttention は最近頻繁に言及または引用されているメカニズムです。

出典: https://arxiv.org/abs/2205.14135

(8) Cramming: 1つのGPUで1日で言語モデルをトレーニング (2022) GeipingとGoldstein著、 https://arxiv.org/abs/2212.14034

この論文では、研究者らはマスク付き言語モデル、エンコーダ型LLM(BERTを参照)を単一のGPUで24時間学習させました。対照的に、2018年に発表されたBERTのオリジナル論文では、16個のTPUで4日間の学習が必要でした。興味深いことに、小規模なモデルはスループットが高かったものの、学習効率は低かったのです。したがって、大規模なモデルでは、特定の予測性能閾値に到達するのにそれほど多くの学習時間は必要ありません。

出典: https://arxiv.org/abs/2212.14034

(9) LoRA:大規模言語モデルの低ランク適応(2021)、Hu、Shen、Wallis、Allen-Zhu、Li、L Wang、S Wang、Chen著、 https://arxiv.org/abs/2106.09685

低ランク適応(LoRA)は、大規模言語モデルのパラメータ効率の高いファインチューニングにおいて最も影響力のある手法の一つです。パラメータ効率の高いファインチューニング手法は他にも存在しますが(後述)、LoRAはエレガントかつ非常に汎用性が高く、他の種類のモデルにも適用可能であることに注目すべきです。

事前学習済みモデルの重みは事前学習タスクにおいてフルランクであるものの、LoRAの著者らは、事前学習済みの大規模言語モデルは新しいタスクに適応する際に「内在次元」が低くなることを指摘しています。そのため、LoRAの基本的な考え方は、重みの変化ΔWをより低ランクの表現に分解し、パラメータをより効率的にすることです。

LoRA の図とそのパフォーマンスは https://arxiv.org/abs/2106.09685 から引用しました。

(10) スケールダウンからスケールアップへ:パラメータ効率の良いファインチューニングガイド(2022年)、Lialin、Deshpande、Rumshisky著、 https://arxiv.org/abs/2303.15647

大規模なデータセットで事前学習された現代の大規模言語モデルは、言語翻訳、要約、コーディング、質問応答(Q&A)など、様々なタスクにおいて優れた性能を発揮し、新たな能力を発揮します。しかし、ドメイン固有のデータや特殊なタスクにおけるパフォーマンスを向上させるには、Transformerの微調整が不可欠です。本論文では、パラメータ効率の高い微調整手法(プレフィックスチューニング、アダプタ、低ランク適応(LoRA)など、現在普及している手法を含む)に関する40以上の論文をレビューし、計算効率の高い微調整を実現します。

出典: https://arxiv.org/abs/1910.13461

(11) 計算に最適な大規模言語モデルのトレーニング (2022) Hoffmann、Borgeau、Mensch、Buchatskaya、Cai、Rutherford、de Las Casas、Hendricks、Welbl、Clark、Hennigan、Noland、Millican、van den Driessche、Damoc、Guy、Osindero、Simonyan、Elsen、Rae、Vinyals、および Sifre、 https://arxiv.org/abs/2203.15556

この論文では、700億パラメータのChinchillaモデルが紹介されています。このモデルは、生成モデリングタスクにおいて、現在広く普及している1750億パラメータのGPT-3モデルよりも優れた性能を発揮します。しかし、この論文の主な主張は、現在の大規模言語モデルは「学習不足」であるというものです。

この論文では、大規模言語モデルの学習における線形スケーリング則を定義しています。例えば、ChinchillaはGPT-3の半分のサイズしかありませんが、1.4兆トークン(3000億トークンではなく)で学習するため、GPT-3よりも優れた性能を発揮します。つまり、学習トークンの数はモデルサイズと同じくらい重要です。

出典: https://arxiv.org/abs/2203.15556

(12) Pythia: 大規模言語モデルのトレーニングとスケーリングをまたぐ分析スイート (2023) Biderman、Schoelkopf、Anthony、Bradley、O'Brien、Hallahan、Khan、Purohit、Prashanth、Raff、Skowron、Sutawika、van der Wal著、 https://arxiv.org/abs/2304.01373

Pythia は、トレーニング中に LLM がどのように進化するかを研究するために使用できるオープンソースの LLM スイート (7000 万から 120 億のパラメーター) です。

アーキテクチャはGPT-3に似ていますが、Flash Attention(LLaMA[10]に類似)やRotary Positional Embeddings(PaLM[11]に類似)などの改良が加えられています。Pythiaは、The Pileデータセット[12](825 Gb)の300 Bトークンで学習しました(通常のPILEで約1エポック、重複排除PILEで約1.5エポック)。

Pythia 大型モデル キット (https://arxiv.org/abs/2304.01373 経由)

ピュティア関連の研究の主な結論は次のとおりです。

  • 反復データでのトレーニング (LLM トレーニングの性質上、複数のエポックでのトレーニングを意味します) は、パフォーマンスにメリットもデメリットもありません。

  • 学習順序はモデルの記憶能力に影響を与えません。これは実際には理想的ではありません。もし逆のことが当てはまるなら、学習データの順序を変更することで、逐語的記憶能力の低下を軽減できるからです。

  • 事前学習中の単語の頻度はタスクのパフォーマンスに影響します。例えば、サンプル数が少ないほど、より一般的な単語の方が精度が高くなる傾向があります。

  • バッチ サイズを 2 倍にすると、収束に影響を与えずにトレーニング時間を半分にすることができます。

03アライメント - 大規模言語モデルをガイドして期待される目標と利益を達成する

近年、GPT-3やChinchillaなど、写実的なテキストを生成できる比較的高性能な大規模言語モデルが数多く登場しています。しかし、一般的に使用されている事前学習パラダイムでは、達成可能なパフォーマンスの上限に達したようです。

言語モデルを人間にとってより役立つものにし、誤情報や有害な発言を減らすために、研究者は事前トレーニング済みの基本モデルを微調整するための追加のトレーニングパラダイムを設計しました。

(13) 人間のフィードバックによる指示に従う言語モデルのトレーニング (2022) Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike、Lowe、 https://arxiv.org/abs/2203.02155

このいわゆるInstructGPT論文において、研究者らは人間が関与する強化学習メカニズム(RLHF)を用いています。事前学習済みのGPT-3ベースモデルから始め、人間が提示したプロンプトとレスポンスのペアを用いた教師あり学習によって、さらに微調整を行いました(ステップ1)。次に、人間がモデルの出力をランク付けし、報酬モデルを学習しました(ステップ2)。最後に、事前学習および微調整されたGPT-3モデルを、報酬モデルを用いて近似方策最適化(ステップ3)によって更新しました。

ちなみに、この論文は ChatGPT の核となるアイデアを概説した論文としても知られています。最近の噂によると、ChatGPT は大規模なデータセット向けに微調整された InstructGPT の拡張バージョンです。

出典: https://arxiv.org/abs/2203.02155

(14) 憲法上のAI:AIフィードバックからの無害性(2022年)、Yuntao、Saurav、Sandipan、Amanda、Jackson、Jones、Chen、Anna、Mirhoseini、McKinnon、Chen、Olsson、Olah、Hernandez、Drain、Ganguli、Li、Tran-Johnson、Perez、Kerr、Mueller、Ladish、Landau、Ndousse、Lukosuite、Lovitt、Sellitto、Elhage、Schiefer、Mercado、DasSarma、Lasenby、Larson、Ringer、Johnston、Kravec、El Showk、Fort、Lanham、Telleen-Lawton、Conerly、Henighan、Hume、Bowman、Hatfield-Dodds、Mann、Amodei、Joseph、McCandlish、Brown、Kaplan、https: //arxiv.org/abs/2212.08073

本論文では、研究者らはアライメントの考え方をさらに一歩進め、「無害な」AIシステムを構築するために使用できる学習メカニズムを提案しています。人間による直接的な監督とは異なり、研究者らは人間が提供するルールに基づく自己学習メカニズムを提案しています。前述のInstructGPT論文と同様に、提案手法は強化学習を採用しています。

出典: https://arxiv.org/abs/2212.08073

(15) 自己指導:言語モデルと自己生成指導の整合(2022年)Wang、Kordi、Mishra、Liu、Smith、Khashabi、Hajishirzi著、 https://arxiv.org/abs/2212.10560

命令の微調整は、GPT-3のような事前学習済みの基本モデルを、より高性能なLLM(ChatGPTなど)に変換する手法です。databricks-dolly-15kのようなオープンソースの人間入力命令データセットは、この実現に役立ちます。しかし、これをどのようにスケールアップできるでしょうか?一つのアプローチは、LLMの学習を自己生成によって誘導することです。

Self-Instruct は、事前トレーニング済みの LLM を指示に合わせるための方法 (注釈はほとんどなし) です。

どのように機能するのでしょうか?簡単に言うと、4つのステップがあります。

ステップ 1: 人間が作成した一連の指示 (この例では 175 個) とサンプルの指示をシード タスク プールとして使用します。

ステップ 2: 事前トレーニング済みの LLM (GPT-3 など) を使用して、タスク カテゴリを決定します。

ステップ 3: 新しい指示を与えて、事前トレーニング済みの LLM に応答を生成させます。

ステップ 4: 大規模なモデルからの応答を収集、整理、フィルタリングし、タスク プールに追加します。

自己指導法の注釈図は https://arxiv.org/abs/2212.10560 から引用しました。

実際には、この方法は ROUGE スコアに基づいて比較的良好に機能します。

例えば、Self-Instructによって微調整されたLLMは、GPT-3ベースのLLM(1)よりも優れた性能を示し、大量の人間による指示を用いて事前学習されたLLM(2)と競合することができます。さらに、Self-Instructは、既に人間の指示に基づいて微調整されたLLMにもメリットをもたらします(3)。

しかし、LLMを評価するためのゴールドスタンダードは、もちろん人間による評価です。人間による評価によると、Self-Instruct法は、基本的なLLMだけでなく、人間が指示したデータセット(SuperNIやT0 Trainerなど)を用いて教師あり学習されたLLMよりも優れた性能を示しています。しかし興味深いことに、Self-Instruct法は、人間のフィードバックを用いた強化学習学習法(RLHF)を上回ることはありませんでした。

人間が作成した指示データセットと自己学習データセット、どちらがより有望でしょうか?どちらも有望だと思います。まずはdatabricks-dolly-15kのような人間が作成した指示データセットを使い、その後自己学習アプローチで拡張してみてはいかがでしょうか?

04ボーナス: 人間のフィードバックによる強化学習入門 (RLHF)

RLHF(人間によるフィードバックを伴う強化学習)は、LLMの現状の問題を完全に解決するわけではないかもしれませんが、特に以前の世代のLLMと比較すると、現時点では最良の選択肢と考えられています。今後、RLHFをLLMの他の分野に適用する、より創造的な方法が見られるようになるでしょう。

上記の2つの論文、InstructGPTとConstitutinal AIはどちらもRLHFを使用しており、近い将来、影響力のある手法になると考えています。このセクションでは、RLHFについて学びたい方のために、他のリソースも紹介します。(技術的な正確さのために、Constitutinal AIの論文では人間のフィードバックではなく人工知能を使用していますが、RL(強化学習)と同様の概念に従っています。)

(16) Mnih、Ba​​dia、Mirza、Graves、Lillicrap、Harley、Silver、Kavukcuogluによる「Asynchronous Methods for Deep Reinforcement Learning (2016)」(< https://arxiv.org/abs/1602.01783)では、ディープラーニングベースの強化学習におけるQ学習の代替としてポリシー勾配法を紹介しています。

(17)Schulman、Wolski、Dhariwal、Radford、KlimovによるProximal Policy Optimization Algorithms(2017)(< https://arxiv.org/abs/1707.06347)では、上記のオリジナルのポリシー勾配アルゴリズムよりもデータ効率が高くスケーラブルな改良された近似ポリシー最適化強化学習プロセスが提案されています

(18) Ziegler、Stiennon、Wu、Brown、Radford、Amodei、Christiano、Irvingによる「人間の好みからの言語モデルの微調整(2020)」(< https://arxiv.org/abs/1909.08593)では、PPOと報酬学習の概念、およびポリシーが自然言語から大きく逸脱するのを防ぐために事前学習済み言語モデル(KL正則化を含む)に適用される手法が説明されています。

(19) 人間のフィードバックから要約を学ぶ (2022) Stiennon、Ouyang、Wu、Ziegler、Lowe、Voss、Radford、Amodei、Christiano [2009.01325] この論文では、現在普及しているRLHF(調査、要約、フィードバック)法の3つのステップを紹介しています。

  1. GPT-3の事前トレーニング

  2. 監視を通じて微調整します。

  3. 報酬モデルは教師あり学習によって学習されます。その後、近似方策最適化アルゴリズムを用いて、この報酬モデルを用いて微調整されたモデルを学習します。

この論文では、従来の教師あり学習法のみを使用する場合と比較して、近似ポリシー最適化強化学習のサポートにより、より優れたモデルが得られることも示しています。

出典: https://arxiv.org/abs/2009.01325

(20) Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike、Loweによる「人間のフィードバックによる指示に従う言語モデルのトレーニング(2022)」(https://arxiv.org/abs/2203.02155)は、InstructGPT論文としても知られており、上記のRLHF論文と同様の3つのステップを使用していますが、テキストを要約するのではなく、人間の指示に基づいてテキストを生成します。さらに、出力をソートするためにラベラーを使用しています( AI生成テキストと人間生成テキストを単純にバイナリ比較するのではなく)。

05.結論と参考文献

この記事で紹介する論文リストは簡潔にまとめ、現代の大規模言語モデルの設計、制約、そして進化の理解に焦点を当てています。上位10本の論文(およびRLHFに関する3本の論文)をリストアップしました。

より深い理解を得るためには、上記の論文の参考文献を読むことをお勧めします。あるいは、以下の参考文献(このリストはすべてを網羅しているわけではありません)もご参照ください。

GPTに代わるオープンソースソリューション

BLOOM: 176Bパラメータのオープンアクセス多言語モデル (2022)、https://arxiv.org/abs/2211.05100

OPT: オープンな事前学習済みTransformer言語モデル(2022)、https://arxiv.org/abs/2205.01068

UL2: 言語学習パラダイムの統一 (2022)、https://arxiv.org/abs/2205.05131

ChatGPTの代替

LaMDA: 対話アプリケーションのための言語モデル (2022)、https://arxiv.org/abs/2201.08239

(Bloomz) マルチタスクファインチューニングによるクロスリンガル一般化 (2022)、https://arxiv.org/abs/2211.01786

(Sparrow) 人間の判断をターゲットとした対話エージェントのアライメントの改善 (2022)、https://arxiv.org/abs/2209.14375

BlenderBot 3: 責任ある対話を継続的に学習する、デプロイ済みの会話エージェント、https://arxiv.org/abs/2208.03188

計算生物学における大規模言語モデル

ProtTrans: 自己教師型ディープラーニングと高性能コンピューティングによる生命のコード言語の解読に向けて (2021)、https://arxiv.org/abs/2007.06225

AlphaFoldによる高精度タンパク質構造予測(2021年)、https://www.nature.com/articles/s41586-021-03819-2

大規模言語モデルが多様なファミリーにわたって機能的なタンパク質配列を生成する(2023)、https://www.nature.com/articles/s41587-022-01618-2

AIについてさらに詳しく知りたい場合は、原著者の本を読んでみてください。

https://sebastianraschka.com/books

終わり

参考文献

  1. https://arxiv.org/abs/2203.02155

  2. https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/

  3. https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/

  4. https://github.com/karpathy/nanoGPT

  5. https://sebastianraschka.com/blog/2021/dl-course.html#l19-self-attention-and-transformer-networks

  6. https://github.com/rasbt/機械学習ブック/tree/main/ch16

  7. https://arxiv.org/abs/1907.11692

  8. https://arxiv.org/abs/2009.06732

  9. https://arxiv.org/abs/2302.01107

  10. https://arxiv.org/abs/2302.13971

  11. https://arxiv.org/abs/2204.02311

  12. https://arxiv.org/abs/2101.00027