注意メカニズムから RLHF まで: 大規模モデル技術の初心者が必ず読むべきリスト。

GitHub でスターを付けていただけると嬉しいです:

OpenASCE、分散型エンドツーエンド因果学習システム: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

大規模モデルによって駆動される知識グラフ OpenSPG: https://github.com/OpenSPG/openspg

大規模グラフ学習システム OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning

わずか5年足らずで、大規模モデルとTransformerは自然言語処理の分野をほぼ完全に変革し、コンピュータービジョンや計算生物学といった分野にも革命を起こし始めました。セバスチャン・ラシュカ博士は学術研究論文に焦点を当て、機械学習の研究者や実務家向けに入門書リストを作成しました。このリストを順番に読んでいくことで、あなたも今日から大規模モデル技術の分野に本格的に取り組むことができます。

もちろん、セバスチャン・ラシュカ博士は、次のような他の多くの有用なリソースについても言及しています。

ジェイ・アラマー著「イラスト付きトランスフォーマー」
Lilian Weng のより技術的なブログ投稿。
Xavier Amatriain が編集したトランスフォーマーに関するすべてのカタログと系図。
教育目的で Andrej Karpathy が作成した生成言語モデルの最小限のコード実装。
著者の講演シリーズおよび本の章に加えて。

主要なアーキテクチャとタスクを理解する

トランスフォーマーや大型モデルを初めて扱う場合は、最初から始めるのが最も合理的です。

1. アライメントと翻訳の共同学習によるニューラル機械翻訳（2014）

著者: バダナウ、チョー、ベンジオ

論文リンク: https://arxiv.org/abs/1409.0473

もし数分の余裕があれば、この論文から始めることをお勧めします。この論文では、リカレントニューラルネットワーク（RNN）に注目メカニズムを導入し、長いシーケンスのモデル化能力を強化しました。これにより、RNNはより長い文をより正確に翻訳できるようになりました。これが、後にオリジナルのTransformerアーキテクチャが開発されるきっかけとなりました。

2. アテンション・イズ・オール・ユー・ニード（2017年）

著者: Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser、および Polosukhin

論文リンク： https://arxiv.org/abs/1706.03762

本稿では、エンコーダとデコーダで構成されるオリジナルのTransformerアーキテクチャを紹介します。これら2つの部分は、後ほど別々のモジュールとして説明します。さらに、本稿では、スケーリングされたドット積アテンション、マルチヘッドアテンションブロック、位置入力エンコーディングといった、現代のTransformerモデルの基礎となっている概念についても紹介します。

3. Transformerアーキテクチャにおけるレイヤー正規化について（2020）

著者: Yang、He、K Zheng、S Zheng、Xing、Zhang、Lan、Wang、Liu

論文リンク： https://arxiv.org/abs/2002.04745

上図に示すオリジナルのTransformer構造は、オリジナルのエンコーダ・デコーダアーキテクチャを非常によく要約していますが、図におけるLayerNormの配置については議論の的となっています。例えば、「Attention Is All You Need」のTransformer構造図では、LayerNormが残差ブロックの間に配置されていますが、これはオリジナルのTransformer論文に付属する公式（更新版）コード実装とは異なります。「Attention Is All You Need」の図に示されているバリアントはPost-LN Transformerと呼ばれていますが、更新版のコード実装ではPre-LNバリアントがデフォルトになっています。

論文「Transformerアーキテクチャにおけるレイヤー正規化」では、Pre-LNの方がより効果的で、勾配の問題を解決できることが指摘されています。以下に示すように、多くのアーキテクチャでこのアプローチが実際に採用されていますが、表現の崩壊につながる可能性があります。そのため、Post-LNとPre-LNのどちらを使用するかについての議論は続いていますが、新しい論文「ResiDual: Dual Residual Connectionsを備えたTransformer」（ https://arxiv.org/abs/2304.14802 ）では、Pre - LNの方がより良い選択肢であると示唆されています。両方のアプローチの利点を同時に活用することを提案していますが、実際の有効性はまだ明らかになっていません。

4. 高速重み記憶の制御学習：動的再帰型ニューラルネットワークの代替（1991）

著者: シュミットフーバー

論文リンク:

https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922

この論文は、歴史的な逸話や、現代のTransformerアーキテクチャに類似した初期の手法に関心のある読者にお勧めです。例えば、1991年に発表された最初のTransformer論文「 Attention Is All You Need 」の約25年前、Juergen Schmidhuberは、リカレントニューラルネットワークの代替としてFast Weight Programmer（FWP）を提案しました。FWPは、勾配降下法によってゆっくりと学習し、別のニューラルネットワークの急激な重み変化をプログラムするフィードフォワードニューラルネットワークです。現代のTransformerとの類似性については、以下のブログ記事で説明されています。

現代のTransformer用語では、FROMとTOはそれぞれキーと値と呼ばれます。高速ネットワークによって適用されるINPUTはクエリと呼ばれます。基本的に、クエリは高速重み行列によって処理されます。これは、キーと値の外積の合計です（正規化と射影は無視されます）。両方のネットワークのすべての操作は微分可能であるため、外積または2次テンソル積の加法性を通じて、高速重みの変更に対するエンドツーエンドの微分可能なアクティブ制御が得られます。したがって、低速ネットワークは勾配降下法によって学習でき、高速ネットワークはシーケンス処理中に迅速に変更できます。これは、正規化を除いて、後に線形自己注意Transformer（または線形Transformer）と呼ばれるものと数学的に同等です。

上記のブログ投稿の抜粋で述べたように、このアプローチは、2020年のarXiv論文「Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention」および「Rethinking Attention with Performers」を通じて、「線形Transformer」または「線形化自己注意を備えたTransformer」と呼ばれるようになりました。その後、線形化自己注意と1990年代の高速重みプログラマーの同等性は、2021年の論文「Linear Transformers Are Secretly Fast Weight Programmers」で明確に実証されました。

5. テキスト分類のためのユニバーサル言語モデルの微調整（2018）

著者: ハワード・ルーダー

論文リンク： https://arxiv.org/abs/1801.06146

これは歴史的観点から非常に興味深い論文です。「Attention Is All You Need」の出版から1年後に執筆されましたが、Transformerではなく、リカレントニューラルネットワークに焦点を当てています。しかしながら、下流タスクのための事前学習済み言語モデルと転移学習を効果的に提案している点において、依然として注目に値します。転移学習はコンピュータービジョンでは既に確立されていますが、自然言語処理（NLP）ではまだ広く普及していません。ULMFitは、事前学習済み言語モデルを微調整して特定のタスクに適応させる方法を示した最も初期の論文の一つであり、多くのNLPタスクにおいて画期的な成果を達成しました。

ULMFit が提案する言語モデルを微調整する 3 段階のプロセスは次のとおりです。

大規模なテキストコーパスで言語モデルをトレーニングします。
この事前トレーニング済みの言語モデルは、タスク固有のデータに基づいて微調整され、特定のテキストのスタイルと語彙に適応します。
分類器をタスク固有のデータに基づいて微調整しながら、レイヤーを徐々に解凍することで壊滅的な忘却を回避します。

このアプローチ（大規模コーパスで言語モデルを学習し、下流のタスクに合わせて微調整する）は、Transformerモデルや基礎モデル（BERT、GPT-2/3/4、RoBERTaなど）に基づく中核的な技術です。しかし、ULMFitの重要な部分である段階的解凍は、Transformerアーキテクチャを運用する際には日常的に実行されることはなく、通常はすべてのレイヤーが一度に微調整されます。

6. BERT: 言語理解のための深層双方向変換の事前学習(2018)

著者: デブリン、チャン、リー、トータノバ

論文リンク： https://arxiv.org/abs/1810.04805

オリジナルの Transformer アーキテクチャに続いて、大規模言語モデルの研究は、予測モデリングタスク (テキスト分類など) 用のエンコーダーベースの Transformer と、生成モデリングタスク (翻訳、要約、その他の形式のテキスト作成など) 用のデコーダーベースの Transformer の 2 つの方向に分岐し始めました。

前述のBERT論文は、マスク言語モデリングと次文予測という独創的な概念を導入し、現在でも非常に影響力のあるエンコーダベースのアーキテクチャとなっています。この研究分野にご興味をお持ちの方は、次文予測タスクを省くことで事前学習の目的を簡素化したRoBERTaを検討することをお勧めします。

7. 生成的事前学習による言語理解の向上(2018)著者: Radford および Narasimhan 論文リンク:

https://www.semanticscholar.org/paper/Improving- Language -Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

GPTの最初の論文では、一般的なデコーダーベースのアーキテクチャと、次単語予測による事前学習手法が紹介されました。BERTの事前学習の目的は、マスクされた言語モデルのため双方向の変換と見なすことができますが、GPTは単方向の自己回帰モデルです。GPTの埋め込みは分類にも使用できますが、ChatGPTなど、今日最も影響力のある大規模言語モデル（LLM）ではGPTのアプローチが中心的な役割を果たしています。

この研究分野に興味をお持ちの方は、GPT-2とGPT-3に関する関連論文を引き続き読んでみることをお勧めします。これら2つの論文は、LLMがゼロショット学習と少数ショット学習を実現できることを実証し、LLMの新たな可能性を浮き彫りにしています。GPT-3は、現在のLLMの学習において最も一般的に使用されているベースラインモデルであり、ChatGPTの基盤となったInstructGPT技術については、後日別の記事で紹介します。

GPT2関連論文: https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/ 9405cc0d6169988371b2755e573cc28650d14dfe

GPT3関連論文： https://arxiv.org/abs/2005.14165

8. BART: 自然言語生成、翻訳、理解のためのシーケンスツーシーケンス事前学習によるノイズ除去(2019)

著者: Lewis, Liu, Goyal, Ghazvininejad, Mohamed, Levy, Stoyanov, Zettlemoyer

論文リンク： https://arxiv.org/abs/1910.13461 。

前述のように、BERTのようなエンコーダベースの大規模言語モデル（LLM）は一般的に予測モデリングタスクに適しており、GPTのようなデコーダベースのLLMはテキスト生成に優れています。両者の長所を組み合わせるため、前述のBART論文ではエンコーダとデコーダの両方のコンポーネントを組み合わせています（これは、2番目の論文で紹介されたオリジナルのTransformer構造にいくらか類似しています）。

9. LLMの力を実践で活用する：ChatGPTとその先に関する調査（2023年）

著者: ヤン、ジン、タン、ハン、フェン、ジャン、イン、胡

論文リンク： https://arxiv.org/abs/2304.13712

これは研究論文ではありませんが、アーキテクチャの概要としてはおそらくこれまでで最も優れており、様々なアーキテクチャがどのように進化してきたかを鮮明に示しています。BERTスタイルのマスク付き言語モデル（エンコーダー）とGPTスタイルの自己回帰言語モデル（デコーダー）の議論にとどまらず、事前学習とデータのファインチューニングに関する有益な議論とガイダンスも提供しています。

スケーリング法と効率性の向上

Transformerの効率を向上させるための様々な手法についてさらに詳しく知りたい方は、まず2020年の論文「効率的なTransformers：調査」と2023年の論文「効率的なTransformersのトレーニングに関する調査」をお読みになることをお勧めします。さらに、私が特に興味深く、読む価値があると思った他の論文をいくつかご紹介します。

「効率的な変圧器：調査」

https://arxiv.org/abs/2009.0673 2

「変圧器の効率的なトレーニングに関する調査」

https://arxiv.org/abs/2302.0110 7

10. FlashAttention: IO を考慮した高速かつメモリ効率の高い Exact Attention (2022)

著者: ダオ、フー、エルモン、ルドラ、レ

論文リンク： https://arxiv.org/abs/2205.14135 。

ほとんどの Transformer 論文では、自己注意を実現するために元のスケールされたドット積メカニズムを置き換えることは行われていませんが、最近最も頻繁に引用されているのを見たメカニズムは FlashAttention です。

11. 詰め込み：1日で単一GPUで言語モデルをトレーニングする（2022年）

著者:ガイピングとゴールドスタイン

論文リンク： https://arxiv.org/abs/2212.14034

この論文では、研究者らは大規模言語モデル（この場合はBERT）を、マスク言語モデル／エンコーダーの形式で、単一のGPUで24時間学習させました。対照的に、2018年に発表されたBERTのオリジナル論文では、16個のTPUで4日間の学習が必要でした。興味深い発見は、小規模なモデルはスループットが高い一方で、学習効率が低いということです。したがって、大規模なモデルでは、特定の予測性能閾値に到達するために必ずしも長い学習時間が必要というわけではありません。

12. LoRA：大規模言語モデルの低ランク適応（2021）

著者: Hu, Shen, Wallis, Allen-Zhu, Li, L Wang, S Wang, Chen

論文リンク： https://arxiv.org/abs/2106.09685 。

膨大なデータセットで事前学習された現代の大規模言語モデルは、言語翻訳、要約、プログラミング、質問応答など、様々なタスクにおいて優れた能力を発揮し、新たな可能性を秘めています。しかし、ドメイン固有のデータや特殊なタスクにおけるモデルのパフォーマンスを向上させるには、微調整が不可欠です。低ランク適応（LoRA）は、大規模言語モデルのパラメータ効率の高い微調整において最も影響力のある手法の一つです。

効率的なパラメータ微調整手法は他にも存在しますが、LoRAはエレガントかつ汎用性が高く、他の種類のモデルにも適用可能であるため、特に注目に値します。事前学習済みモデルは事前学習タスクに対してフルランクの重みを持ちますが、LoRAの著者らは、大規模言語モデルは新しいタスクに適応する際に「固有次元」が低下することを指摘しています。したがって、LoRAの核となる考え方は、重みの変動ΔWをより低ランクの表現に分解することで、パラメータ効率を向上させることです。

13.スケールダウンからスケールアップへ：パラメータ効率の高い微調整ガイド（2022年）

著者: Lialin、Deshpande、Rumshisky

論文リンク： https://arxiv.org/abs/2303.15647 。

このレビューでは、効率的なパラメータ微調整方法（プレフィックス調整、アダプタ、低ランク適応などの一般的な手法をカバー）に関する 40 件を超える論文を要約し、微調整プロセスを（極めて）計算効率的にすることを目的としています。

14. 言語モデルのスケーリング：Gopherのトレーニングから得られた方法、分析、洞察（2022年）著者：Raeと78人の同僚

論文リンク： https://arxiv.org/abs/2112.11446

Gopherは非常に優れた論文であり、大規模言語モデル（LLM）の学習プロセスを理解するための広範な分析が含まれています。研究者たちは、3000億トークンに基づいて、2800億のパラメータを持つ80層モデルを学習しました。LayerNorm（層正規化）の代わりにRMSNorm（二乗平均平方根正規化）を使用するなど、アーキテクチャに関する興味深い改良点がいくつか含まれています。LayerNormとRMSNormはどちらもバッチサイズに依存せず、同期を必要としないため、BatchNormよりも優れています。これは、分散環境で小規模なバッチを使用する場合に特に有利です。しかし、RMSNormは一般的に、深層アーキテクチャの学習プロセスを安定化させるのにより効果的であると考えられています。

これらの興味深い詳細に加え、本論文の主な焦点は、様々なスケールにおけるタスクパフォーマンスの分析にあります。152の多様なタスクを対象とした評価では、モデルサイズの拡大によって理解、事実確認、有害言語の識別といったタスクが最も顕著に改善されることが示されています。しかし、論理や数学的推論に関連するタスクでは、アーキテクチャの拡張による恩恵はそれほど大きくありません。

15. 計算最適化大規模言語モデルのトレーニング（2022）

著者: ホフマン、ボルジョー、メンシュ、ブチャツカヤ、カイ、ラザフォード、デラスカサス、ヘンドリックス、ウェルブル、クラーク、ヘニガン、ノーランド、ミリカン、ファンデンドリーシェ、ダモク、ガイ、オシンデロ、シモニャン、エルセン、レイ、ヴィニャルス、シフレ

論文リンク： https://arxiv.org/abs/2203.15556 。

この論文では、生成モデリングタスクにおいて、一般的な175パラメータのGPT-3モデルを上回る性能を示す、70パラメータのChinchillaモデルが紹介されています。しかし、その中心的な主張は、現在の大規模言語モデルは「著しく学習不足」であるというものです。この論文では、大規模言語モデルの学習における線形スケーリング則を定義しています。例えば、ChinchillaはGPT-3の半分のサイズしかありませんが、1.4兆トークン（3000億トークンではなく）で学習されているため、GPT-3を上回っています。言い換えれば、学習トークンの数はモデルサイズと同じくらい重要です。

16.Pythia ：トレーニングとスケーリングにわたる大規模言語モデルを分析するためのスイート（2023）

著者: Biderman、Schoelkopf、Anthony、Bradley、O'Brien、Hallahan、Khan、Purohit、Prashanth、Raff、Skowron、Sutawika、van der Wal

論文リンク： https://arxiv.org/abs/2304.01373

Pythiaは、7億から120億のパラメータを持つオープンソースの大規模言語モデルファミリーであり、学習中の大規模言語モデルの進化を研究するために設計されています。そのアーキテクチャはGPT-3に似ていますが、Flash Attention（LLaMAに類似）やRotary Positional Embeddings（PaLMに類似）などの改良が組み込まれています。Pythiaは、3000億トークン（通常のPILEデータセットでは約1エポック、重複除去されたPILEデータセットでは約1.5エポック）を使用して、The Pileデータセット（825GB）で学習されています。

ピュティアの研究の主な結果は次のとおりです。

反復データでのトレーニング（大規模言語モデルのトレーニング方法により、複数のエポックにわたるトレーニングを意味します）は、パフォーマンスにメリットもデメリットもありません。
学習順序は記憶のパフォーマンスに影響を与えません。これは残念なことです。なぜなら、もし逆のことが当てはまるなら、学習データの順序を変更することで、望ましくない逐語記憶の問題を軽減できるからです。
事前学習における単語の出現頻度は、タスクのパフォーマンスに影響を与える可能性があります。例えば、頻繁に出現する単語の場合、サンプル数が少ないほど精度が高くなることがよくあります。
バッチサイズを 2 倍にすると、収束に影響を与えずにトレーニング時間を半分にすることができます。

アライメント: 大規模言語モデルをガイドして期待される目標と利益を達成する

近年、GPT-3やChinchillaなど、写実的なテキストを生成できる比較的強力な大規模言語モデルが数多く登場しています。しかし、一般的に使用されている事前学習パラダイムでは、達成できる成果の限界に達しているように思われます。

言語モデルをより有用なものにし、誤情報や有害な言語の生成を減らすために、研究者は事前トレーニング済みの基本モデルを微調整するための追加のトレーニングパラダイムを設計しました。

17. 人間のフィードバックによる指示に従う言語モデルのトレーニング（2022）

著者: Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, Lowe,

論文リンク： https://arxiv.org/abs/2203.02155 。

InstructGPTと題されたこの論文では、研究者らは人間のフィードバックを組み込んだ強化学習メカニズム（RLHF）を採用しました。まず、事前学習済みのGPT-3ベースモデルを使用し、教師あり学習（ステップ1）を通じて、人間が生成した手がかりと反応のペアを用いて微調整を行いました。次に、人間にモデルの出力をランク付けさせ、報酬モデルを学習させました（ステップ2）。最後に、この報酬モデルを用いて、事前学習済みおよび微調整済みのGPT-3モデルを、近似方策最適化強化学習アプローチを用いて更新しました（ステップ3）。

ちなみに、この論文は ChatGPT の背後にあるアイデアを説明するものでもあると考えられています。最近の噂によると、ChatGPT は InstructGPT のスケールアップ版であり、より大きなデータセットで微調整されています。

18. 憲法上のAI：AIフィードバックからの無害性（2022年）

論文著者: Yuntao, Saurav, Sandipan, Amanda, Jackson, Jones, Chen, Anna, Mirhoseini, McKinnon, Chen, Olsson, Olah, Hernandez, Drain, Ganguli, Li, Tran-Johnson, Perez, Kerr, Mueller, Ladish, Landau, Ndousse, Lukosuite, Lovitt, Sellitto, Elhage, Schiefer, Mercado, DasSarma, Lasenby, Larson, Ringer, Johnston, Kravec, El Showk, Fort, Lanham, Telleen-Lawton, Conerly, Henighan, Hume, Bowman, Hatfield-Dodds, Mann, Amodei, Joseph, McCandlish, Brown, Kaplan

論文リンク： https://arxiv.org/abs/2212.08073 。

本論文では、研究者らは「アライメント」の概念をさらに発展させ、「無害な」AIシステムを構築するための学習メカニズムを提案しています。人間による直接的な監督とは異なり、人間が提供するルールリストに基づく自己学習メカニズムが提案されています。前述のInstructGPT論文と同様に、提案手法は強化学習を採用しています。

19. 自己指導：言語モデルと自己生成指導の整合（2022年）

論文著者: Wang、Kordi、Mishra、Liu、Smith、Khashabi、Hajishirzi

論文リンク： https://arxiv.org/abs/2212.10560

命令の微調整は、GPT-3のような事前学習済みの基本モデルから、ChatGPTのようなより強力なLLMへの移行方法です。databricks-dolly-15kのようなオープンソースの人間生成命令データセットは、このプロセスを可能にします。しかし、どのようにスケールさせるのでしょうか？一つのアプローチは、LLMが自ら生成したコンテンツに基づいてブートストラップし、学習できるようにすることです。

自己教示とは、事前学習済みのLLMを教示と整合させる手法です（アノテーションはほとんど不要です）。このプロセスはどのように機能するのでしょうか？簡単に言うと、以下の4つのステップで構成されます。

タスクプールは、人間が作成した一連の命令 (この例では 175) で初期化され、そこから命令がサンプリングされます。
事前トレーニング済みの LLM (GPT-3 など) を使用してタスクカテゴリを決定します。
新しい指示に対しては、事前トレーニング済みの LLM が応答を生成します。
これらの応答は収集され、フィルタリングされてから、タスクプールに追加されます。

このように、自己指導方式は、手動による注釈を減らしながら、事前トレーニング済みの言語モデルの指示の遵守と生成の能力を効果的に向上させ、それによってモデルの機能を拡張および最適化することができます。

実際には、このアプローチはROUGEスコアに基づくと比較的良好なパフォーマンスを示しています。例えば、自己指示による指示で微調整された大規模言語モデル（LLM）は、ベースとなるGPT-3モデルよりも優れた性能を示し、人間が記述した大規模な指示で事前学習されたLLMと競合することができます。さらに、自己指示は、人間による指示によって既に微調整されたLLMにもメリットをもたらします。

もちろん、LLMを評価するためのゴールドスタンダードは、人間の評価者を関与させることです。人間による評価によると、自己誘導型手法は、基本的なLLMだけでなく、教師ありの人間による指示データセット（SuperNIやT0 Trainerなど）で学習されたLLMよりも優れた性能を示しました。しかし興味深いことに、自己誘導型手法は、人間のフィードバックを取り入れた強化学習手法（RLHF）を用いて学習されたモデルよりも優れた性能を示しませんでした。

人間が生成した指示データセットと自己誘導データセット、どちらがより有望でしょうか？私はどちらも支持します。databricks-dolly-15k に含まれる15,000件の指示のような人間が生成した指示データセットから始めて、自己誘導手法で拡張してみてはいかがでしょうか？

強化学習と人間のフィードバック (RLHF) 強化学習と人間のフィードバック (RLHF) のより詳細な説明、および RLHF を実装するための近似ポリシー最適化に関する関連論文については、以下の詳細な記事を参照してください。

大規模言語モデル（LLM）について議論する際、研究のダイナミクスやチュートリアルなどにおいて、私は「人間のフィードバックによる強化学習」（RLHF）と呼ばれるプロセスについてよく言及します。RLHFは、人間の好みを最適化フレームワークに組み込むことでモデルの有用性と安全性を向上させるため、現代のLLM学習プロセスにおいて重要な部分となっています。

記事全文を読む:

https:// magazine.sebastianraschka.com /p/llm-training-rlhf-and-its-alternatives

結論と詳細な読書

上記のリストは簡潔にまとめ、現代の大規模言語モデルの設計、制約、そして進化を理解するための10本の論文（RLHFに関する3本を含む）に焦点を当てました。さらに深く学ぶには、上記の論文で引用されている参考文献を参照することをお勧めします。以下に補足資料をいくつか示します。

GPT のオープンソースの代替品:

BLOOM: 176Bパラメータのオープンアクセス多言語モデル (2022)、 https: //arxiv.org/abs/2211.0510 0
OPT: オープンな事前学習済みTransformer言語モデル (2022)、 https: //arxiv.org/abs/2205.0106 8
UL2: 言語学習パラダイムの統一 ( 2022 )、 https://arxiv.org/abs/2205.0513 1

ChatGPTの代替品:

LaMDA: 対話アプリケーションのための言語モデル (2022)、 https: //arxiv.org/abs/2201.0823 9
(Bloomz) マルチタスクファインチューニングによるクロスリンガル一般化 (2022)、 https: //arxiv.org/abs/2211.0178 6
(Sparrow) 人間の判断をターゲットにした対話エージェントのアライメントの改善 (2022)、 https: //arxiv.org/abs/2209.1437 5
BlenderBot 3: 責任ある対話を継続的に学習する展開済み会話エージェント、 https: //arxiv.org/abs/2208.0318 8

生物学的計算における大規模モデル:

ProtTrans: 自己教師型ディープラーニングと高性能コンピューティングによる生命のコード言語の解読に向けて (2021)、 https: //arxiv.org/abs/2007.0622 5
AlphaFoldによる高精度タンパク質構造予測（2021年）、 https://www. nature.com/articles/s41 586-021-03819-2
大規模言語モデルが多様なファミリーにわたって機能的なタンパク質配列を生成する（2023）、 https://www. nature.com/articles/s41 587-022-01618-2

記事のおすすめ

年収最大100万！AI業界に参入したいけどプログラミングはわからない？この記事では、プログラミング経験ゼロでも活躍できるAI関連職種を9つご紹介します。

平均月収46,000円以上！ハーバード、スタンフォード、マイクロソフト、グーグルなどトップクラスのAI講座を収録！

AIとの会話をより効果的にする7つのヒント

誰もが開発者である時代において、プログラミングを学ぶことはまだ役に立つのでしょうか?

著作権侵害がございましたら、削除いたしますのでご連絡ください。参考リンク：

https:// magazine.sebastianraschka.com /p/understanding-large-language-models

私たちに従ってください

オープンSPG:
公式サイト：https://spg.openkg.cn
Github: https://github.com/OpenSPG/openspg
オープンASCE:
公式サイト：https://openasce.openfinai.org/
GitHub: [https://github.com/Open-All-Scale-Causal-Engine/OpenASCE]

「Trusted AI Progress」WeChat公式アカウントは、大規模グラフ学習、因果推論、知識グラフ、大規模モデルといった分野を網羅し、最新の信頼できる人工知能技術の普及とオープンソース技術の育成に取り組んでいます。QRコードをスキャンしてフォローし、AIに関する最新情報を入手しましょう！

編集

HUOXIU

注意メカニズムから RLHF まで: 大規模モデル技術の初心者が必ず読むべきリスト。

私たちに従ってください

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ