今日の世界では、人々の仕事と生活はデータアクセスと切り離せない関係にあり、ほぼすべてのプラットフォームの背後にあるデータの保存とクエリはデータベースに依存しています。データベースクエリおよび処理言語としてのSQLには長い歴史があります。1970年代初頭、IBMがリレーショナルデータモデルの研究を行っていた際に初めて提案され、以来、広く使用される標準的なデータベースアクセスインターフェースへと発展してきました。

今日の大規模言語モデルの開発は、この標準を再検討し、人々がより自然な方法でデータベースにアクセスし、より直接的かつ柔軟な方法で顧客にデータを返す方法を検討する機会を提供しています。歴史的な発展により、データベース分析から結論を導き出すには、「アナリスト + レポートフロントエンド + データバックエンド + SQL + データストレージ」を含む包括的なワークフローが必要であり、これは将来的に課題となるパラダイムです。自然言語固有の利点に加えて、文脈学習機能、転移学習、テキスト要約機能も大きな可能性を秘めています。これらの点を念頭に置くと、大規模言語モデルの背景にある開発と技術原理を理解することが不可欠です。

I. 大規模言語モデルの開発

大規模言語モデルは、実証済みかつ実現可能なアプローチとして、「大規模」な意味を持つ。これは、広範な学習データセット、多数のモデルパラメータとレイヤー、そして高い計算コストを伴うからである。その価値は、その汎用性と優れた汎化能力にある。従来のドメイン固有言語モデルと比較して、大規模言語モデルはより幅広い応用範囲を持つ。本稿では、GoogleとOpenAIの関連論文、そして一部の著者による補足情報を参照し、筆者の理解も踏まえ、その技術開発と主要な実装を、一般に理解可能な言語で分析する。

1.1 トランスフォーマーモデルの提案

Transformerが提案される以前、自然言語処理分野における主流モデルは、再帰ニューラルネットワークと畳み込みニューラルネットワークを用いて言語シーケンスを変換するリカレントニューラルネットワーク（RNN）でした。2017年、Google Brainチームは人工知能分野のトップカンファレンスであるNeurIPSで、「Attention is all you need（必要なのは注意だけ）」と題した論文を発表しました。この論文では、注意メカニズムのみに基づき、再帰と畳み込みを完全に排除した、新しくシンプルなネットワークアーキテクチャであるTransformerが初めて提案されました。

再帰モデルは通常、入力シーケンスと出力シーケンスの符号位置に沿って計算を行い、後続の値を予測します。しかし、この固有の逐次的な性質は、メモリ制約によりサンプル間のバッチ処理が制限されるため、トレーニングサンプル内の並列化を妨げます。一方、アテンションメカニズムは、入力シーケンスまたは出力シーケンスにおける距離を考慮せずに依存関係をモデル化することを可能にします。

Transformerは、再帰型ネットワークモデルアーキテクチャを回避し、入力と出力間のグローバルな依存関係をマッピングするためにアテンションメカニズムのみに依存しています。8基のP100 GPUでわずか12時間の学習で、Transformerは最先端の翻訳品質を達成し、優れた並列処理能力を発揮しました。これは当時、最も先進的な大規模言語モデル（LLM）となりました。

2 つの重要な進歩を要約すると次のようになります。

このモデルは、長距離テキスト依存関係の学習限界を克服し、リカレントネットワークのモデルアーキテクチャを回避し、入力と出力間のグローバル依存関係をマッピングするためにアテンションメカニズムのみに依存します。任意の2つの入力または出力位置からの信号を相関させるために必要なオペランドの数は、以前は距離の増加に伴って線形または対数的に増加していましたが、現在では一定に収束し、マルチアテンションメカニズムによって精度が保証されています。
トレーニングは高度に並列化された方法で実行できるため、ハードウェアの利点を活用し、モデルを迅速に反復処理する上で非常に重要です。

下の図は、論文で言及されているTransformerモデルを示しています。このモデルは、図1の左半分（エンコーダ）と右半分（デコーダ）に示すように、エンコーダとデコーダにそれぞれ積層型自己注意層と点単位の全結合層を使用しています。関連する技術的な詳細については後ほど詳しく説明します。

トランスフォーマーモデル

この研究に基づいて、OpenAIはGPT（Generative Pre-training）モデルを開発しました。ここでは、インターネットから画像を借用し、若干の修正を加えています。詳細については後ほど説明します。

GPT開発

1.2 生成的事前学習は初期の潜在能力を示す: GPT-1

2018年、OpenAIは「生成的事前トレーニングによる言語理解の向上」というタイトルの論文を発表しました。

使用されたモデルは2段階に分かれています。第1段階は教師なし事前学習で、大規模なテキストセットに基づいてTransformerを用いて大容量言語モデルを学習します。第2段階はラベル付きデータに基づくパラメータの微調整です。結果として得られたタスク非依存モデル（または汎用モデル）は、識別的に学習されたモデルよりも優れた性能を示し、論文で選択された12のデータセットのうち9つでより良い結果を達成しました。GPT-1では、12層のTransformer構造がデコーダーとして使用されています。各Transformer層はマルチヘッド自己注意機構であり、出力の確率分布は全結合層を通じて得られます。

OpenAI にとって、この経験は、いくつかの重要なブレークスルーを伴い、この道に沿った発展の基盤を築いたと思います。

1. これは、汎用モデルの学習における大きな潜在的価値を示しています。これまで、特定のタスクを学習するためのラベル付きデータの入手が限られていたため、モデル性能の継続的な向上が阻害されていました。しかし、少量のラベル付きデータと教師なしTransformer学習を組み合わせたFinetuneは、優れた結果を達成しました。

2. この論文では、Transformerの中間層の数を増やす試みがなされています。2層から12層に増えるごとに、精度は平均9%向上します。Transformer本来の並列処理能力と組み合わせることで、GPUにとって計り知れない可能性を秘めていることは間違いありません。

3. 本論文では、Fineetuneの2番目のステップに言語モデルを補助学習目標として追加することで、教師ありモデルの汎化能力が向上し、収束が加速されることが示されています。これは、より大きなデータセットを扱う場合、モデルが補助学習目標からより大きな恩恵を受けることを示しています。

生成的事前学習はGPT-1で有望性を示す

論文の要約では、ラベル付きデータがない場合の特定のタスクにおけるモデルの優位性が強調されていますが、上記の3つの発見はOpenAIの将来の技術ロードマップに重要な意味を持ちます。しかしながら、GPT-1は依然として、長いテキストを生成する際の情報損失や重複といった問題を抱えており、ドメイン特化型モデルと比較して多くの欠点を抱えています。

1.3 一般化能力のブレークスルー：GPT-2

2019年、OpenAIは「言語モデルは教師なしマルチタスク学習者である」と題した論文で最新の進歩を発表しました。この論文では、より大規模なモデルとより広範なデータセットが、より優れた汎化能力を発揮することを強調しています。GPT-1は12層のトランスフォーマーを使用し、BERTの最深トランスフォーマーは24層、GPT-2は15億のパラメータを持つ48層のトランスフォーマーを備えています。そのトレーニングセットであるWebTextは、4500万のリンクから抽出され、重複除去された、合計40GBのテキストを含む800万のドキュメントで構成されていました。

この論文では、単一ドメインのデータセットを用いて単一タスクで学習された既存システムの汎化能力の欠如が、汎化能力の欠如の主な原因であると主張している。そのため、GPT-2はより広範なデータセットに対してマルチタスクアプローチを採用し、各タスクは損失関数の収束を確実にする必要があり、異なるタスクは主要なTransformerパラメータを共有する。

パラメータやモデルを一切変更せずに最終的に学習されたモデルは、ゼロショットタスクにおいて8つのデータセットのうち7つで最先端のパフォーマンスを達成しました。この汎化能力は非常に強力であり、機械翻訳において顕著な成果を上げています。GPTはバージョン2.0のリリース以降、大きな注目を集めています。

1.4 より大きなパラメータとより大きなデータセット: GPT3

以前のモデルは、特定のドメインでパフォーマンスが向上した場合でも、微調整のために数千のラベル付きサンプルが必要であり、一般化可能性に大きな影響を与えていました。しかし、人間は前の文章から文脈を推測し、質問に正しく答えることができます。GPT3は、パラメータ（1750億）を増やすことでコンテキスト学習能力をテストし、微調整なしで次のデータを取得しました。パラメータが増加するにつれて、ゼロショット（サンプル0個）、ワンショット（標準サンプルが1つのみ）、および少数のショット（標準サンプルが1000個程度）の3つのシナリオを使用して精度を評価しました。次の図は、モデルパラメータとサンプルセットが精度に与える影響を示しています。パラメータの数が増えるにつれて、ゼロショットから少数ショットへの改善が広がり、パラメータが大きいほど一般化能力が強くなることを示しています。

3つのシナリオ

モデルパラメータとサンプルセットが正確性に与える影響

この論文では、さまざまなパラメータを検証しています。n(params) はパラメータリスト、n(layers) はモデルレイヤーの数、d(model) は FFN レイヤーの数の 1/4、d(head) はマルチアテンションヘッドの次元、すべてのテストで使用されるコンテキストトークンの数は 2048 です。

検証結果

GPT-3は、GPT-2の教師なし学習とゼロショット学習への重点を改良し、教師なしモデルにおける少数ショット学習に重点を移しています。GPT-3は96層のマルチヘッドTransformerを採用し、コンテキストウィンドウサイズを2048トークンに拡大し、45TBのテキストデータというより大規模なデータセットで学習することで、複数のNLPデータセットで優れたパフォーマンスを実現しています。GPT-3は、データ汚染への対応、ノード間ネットワーク相互作用の削減、GPU並列処理時の負荷分散といったエンジニアリングの問題に重点を置いています。

この論文では、GPT-3を24以上のシナリオでテストし、翻訳、質問応答、穴埋めテストなど、多数のNLPデータセットに加え、単語解釈、文中での新語の使用、3桁の計算といったリアルタイム推論やドメイン適応を必要とするタスクにおいても、堅牢なパフォーマンスを実証しました。また、論文では、少数ショットのテストにおいて、GPT-3が人間の評価者には判別が難しいニュース記事を生成できることも示しています。

1.5 大人気のChatGPT: GPT 3.5

2022年3月、OpenAIは別の論文「人間のフィードバックによる指示に従う言語モデルのトレーニング」を発表しました。この論文では、人間からのフィードバックと微調整によって、様々なタスクにおいて言語モデルをユーザーの意図に一致させることができることを示しています。また、GPT-3を拡張・最適化したInstructGPTモデル（GPT-3.5とも呼ばれる）も紹介されました。GPT-3.5にはまだいくつかの単純なエラーが見られますが、この論文は、人間のフィードバックを用いた微調整が有望な方向性であることを示しています。

本論文では、人間からのフィードバックを用いて言語モデルを微調整することで、幅広いタスクにおいてユーザーの意図をより適切に反映させる手法を提示しています。本論文では、手書きのプロンプトとOpenAI API経由で送信されたプロンプトのセットから始めて、望ましいモデル動作のラベル付きサンプルデータセットを収集し、教師あり学習を用いてGPT-3を微調整します。次に、モデルの出力を人間がランク付けし、さらに人間によるフィードバックからの強化学習（RLHF）を用いてこの教師ありモデルを微調整します。InstructGPTモデルのパラメータ数は13億個であるのに対し、GPT-3モデルのパラメータ数は175億個と、InstructGPTモデルの約130倍にもなりますが、InstructGPTモデルの出力はGPT-3モデルよりも優れています。

トレーニングプロセスでは、まず40人の請負業者を雇用してデータのラベル付けを行い、OpenAIのプロンプトに対して人間が書いた回答のサンプルセットと、いくつかの手動で書かれたプロンプトを収集して、教師あり学習のトレーニングのベースラインとした。次に、OpenAIの出力を、より大規模なプロンプトセットと比較し、矛盾点には手動でラベル付けを行った。これに基づいて、報酬モデルを人間の好みを予測するようにトレーニングした。最後に、この報酬モデルの効果を最大化し、教師ありモデルを微調整するために、PPO（Profit-Oriented Programming）が使用された。この部分の具体的な技術的詳細については後述します。論文では、モデルに価値観がある場合、それはより広範な母集団の価値観よりも、ラベル付けした人の価値観を反映していると主張しています。

人間のタスク意図を認識することは非常に重要な機能です。ChatGPTはInstructGPTと同じ構造のモデルを採用していますが、Chat向けに特別に最適化されており、より効果的なラベル付きデータを生成するためのテストとトレーニング用に公開されています。人間フィードバックに基づく強化学習（RLHF）は、ChatGPTを他の生成モデルと区別する最も重要な機能です。この手法により、モデルは有害、非現実的、偏った出力を最小限に抑え、コミュニケーションの自然さを向上させます。さらに、マルチターンのダイアログをより適切にサポートするために、ChatGPTはスタックベースのコンテキスト管理メカニズムを導入しています。これにより、ChatGPTはマルチターンのダイアログにおけるコンテキスト情報を追跡および管理し、会話全体を通して一貫性のある自然な応答を生成することができます。

1.6 現在の技術的限界

専門分野では、十分なトレーニングデータがなければ GPT は適切な応答を生成できません。
信頼性の問題は、回答の具体的な情報源が不足していることから生じます。
適時性の問題は、大規模モデルの基礎となるトレーニングデータが過去のデータであり、再トレーニングのコストが非常に高いことです。
数学の問題は時に非常に深刻で、意味不明なこともあります。スティーブン・ウルフラムは、計算知識検索エンジンと計算言語Wolframを開発しました。Wolframは、自然言語を計算記号に変換し、計算を実行してこの問題を解く可能性を秘めています。
このモデルの学習方法には致命的な欠陥があります。学習済みのモデルが質問に答える際、様々な選択肢の中から最適な回答を選択しますが、それでも答えが間違っている可能性があります。このモデルは本質的にブラックボックスであり、内部ロジックを分解することができないため、ユーザーにとって有害または有害な説明を生成しないことを保証することはできません。モデルをより慎重に学習させると、誤検知を避けるために回答を拒否する可能性があります。モデルが最終的にフレーズに反応しない場合もありますが、質問/フレーズを少し調整するだけで、最終的には正しく回答するようになります。

II. 主要な技術的詳細

Googleの論文は比較的短いです。Liu Yan氏に推薦されたJay Alammer氏によるTransformerの説明を拝見し、その一部を引用させていただきました。主要な技術的詳細を、どなたにも分かりやすくご説明できれば幸いです。

数学的または機械学習の観点から見ると、言語モデルは単語列の確率的相関分布をモデル化します。つまり、以前に発話された文（数学ではベクトルとして捉えることができます）を入力として用い、次の時間ステップにおける異なる文、あるいは言語セットの確率分布を予測します。GPT生成事前学習モデルは、コーパスの確率に基づいて応答の各単語も自動的に生成します。ChatGPTはこれに基づき、人間からのフィードバックによる強化学習（RLHF）を用いて強化学習に介入することで、より良い結果を実現します。

2.1 トランスフォーマーとは何ですか?

この記事では、トレーニングと最適化の部分を省略し、Transformer のコア構造と技術的な側面に焦点を当てます。

エンコーダ/デコーダコンポーネント構造

Transformerは本質的にはエンコーダー・デコーダーアーキテクチャであり、エンコードとデコードのコンポーネントで構成されています。例えば、機械翻訳タスクでは、ある言語の文を入力として受け取り、それを別の言語の文に翻訳して出力します。エンコードとデコードのコンポーネントは複数のレイヤーを持つことができます。例えば、Googleの最初の論文では6層、GPT-1では12層、GPT-3では96層が使用されていました。

エンコーダ/デコーダアーキテクチャ

各エンコーダは、Self-Attention層とPosition-wise Feed Forward Network (FFN)という2つのサブレイヤーで構成されています。各エンコーダの構造は同一ですが、重みパラメータは異なります。エンコーダへの入力はまずSelf-Attention層に流れ込みます。これにより、エンコーダは特定の単語をエンコードする際に、入力文中の他の単語の情報も利用できるようになります（つまり、単語を翻訳する際に、現在の単語だけでなく、他の単語の文脈情報も考慮するということです）。

デコーダーにもエンコーダーと同様にこれら 2 つのレイヤーがありますが、それらの間にはエンコーダー - デコーダーアテンションレイヤーがあり、デコーダーが入力文の関連部分に集中するのに役立ちます。

エンコーダーとデコーダーの注意

エンコーダのテキスト処理

一般的なNLPタスクと同様に、テキスト処理は単語埋め込みアルゴリズムによって各単語を単語ベクトルに変換することから始まります。Transformerの論文概要によると、単語埋め込みベクトルの次元は512で、すべてのエンコーダーはそれぞれサイズが512のベクトルのリストを複数受け取ります。埋め込みは最下位レベルのエンコーダーでのみ行われ、他のエンコーダーは前のエンコーダーの出力を受け取ります。このリストのサイズは設定可能なパラメータで、基本的にはトレーニングデータセット内の最長文の長さです。入力シーケンスを埋め込んだ後、各単語はエンコーダー内の2つの層を通過し、その後、1つずつエンコーダーを上方に進みます。

エンコーダのテキスト処理

自己注意原理

以前、Transformerの自己注意メカニズムはテキストの注意距離の限界を打ち破り、非常に重要であると述べました。次の文を考えてみましょう。

動物は疲れていたので道を渡らなかった

この文中の「it」は何を意味しているのでしょうか？「動物」でしょうか、「通り」でしょうか、それとも何か他の意味でしょうか？これは人間にとっては簡単ですが、モデルにとってはそうではありません。Self-Attentionを用いてこの問題を解決し、「it」を「動物」に誘導します。重み付けを行うと、図8のような重み付け結果が得られ、「動物」が最も注目されるようになります。

自己注意原理

自己注意では、各単語には、クエリベクトル (Q)、キーベクトル (K)、値ベクトル (V) の 3 つの異なるベクトルがあり、それぞれの長さは 64 です。これらのベクトルは、埋め込みベクトル X に 3 つの異なる重み行列 W^Q、W^K、W^V を乗算することによって得られます。3 つの行列はすべて同じサイズ (512×64) です。

クエリ、キー、バリューの概念は、情報検索システムから派生したものです。簡単な検索の例を挙げてみましょう。eコマースプラットフォームで商品（若い女性向けの冬用の薄手の赤いダウンジャケット）を検索する場合、検索エンジンに入力するのはクエリです。検索エンジンはクエリとキー（商品の種類、色、説明など）を照合し、最終的にクエリとキーの類似度に基づいて一致するコンテンツ（バリュー）を取得します。

自己注意において、Q、K、Vは同様の役割を果たします。行列計算において、ドット積は2つの行列間の類似度を計算する方法の一つです。したがって、式1ではQK^Tを用いて類似度を計算しています。次に、出力は類似度に基づいてマッチングされます。このマッチングは、クエリとキーの類似度を重みとする重み付きマッチング法を用いて行われます。

ヘッドメカニズムにもっと注意を払う

マルチヘッドアテンションは、2つの方法で自己アテンション機能を強化します。第一に、アテンション位置を拡張することで、複数の異なる位置への同時アテンションが可能になります。第二に、アテンション層に複数の「表現サブスペース」を提供します。例えば、論文で8つのアテンションヘッドが使用されている場合、8つの異なるQ/K/V行列が存在し、各入力単語ベクトルは計算のためにこれらの8つの表現サブスペースに投影されます。

具体的な処理は下図に示されています。「Thinking Machines」の単語ベクトルは、最下層のエンコーダ層を通過した後、異なる重み行列を用いた8回の自己注意計算を受け、8つの異なるZ行列（0～7）が生成されます。これらの8つのZ行列は連結され、重み行列W0と乗算されて最終的な行列Zが生成されます。この行列には、すべての注意ヘッドからの情報が含まれています。この行列はFFN層に入力されます。

マトリックスは FFN レイヤーに入力されます。

さて、前の例をもう一度見てみましょう。マルチアテンションメカニズムでは、「it」はどの単語に注目しているでしょうか？上部の8色は8つのアテンションヘッドを表しています。1つのアテンションヘッドは「the animal」に注目し、もう1つのアテンションヘッドは「tired」に注目していることがわかります。ある意味では、モデルによる「it」という単語の表現には、「animal」と「tired」という表現が組み込まれていると言えます。

ヘッドメカニズムにもっと注意を払う

したがって、マルチアテンションヘッドは本質的に複数の角度からアテンションを計算し、それらを統合することを含み、これにより文のコンテキストの完全な理解を高めることができます。
デコーダーのTransformerブロックには、エンコーダーに加えて、エンコーダー-デコーダー間のアテンション層が追加されています。このエンコーダー-デコーダー間のアテンション層において、Qはデコーダーの前の出力から、KとVはエンコーダーの出力から取得されます。これらのベクトルは、各デコーダーのエンコーダー-デコーダー間のアテンション層で使用され、デコーダーが入力シーケンス内の適切な位置に注意を集中させるのに役立ちます。下の図は、「I am a student」という翻訳プロセスを示しています。各ラウンドで、デコーダーは単語を生成します。図に示すように、「a」を生成すると、「a」は次のラウンドの入力Qとして追加されます。次に、デコーダーは入力をエンコーダーのKとVと組み合わせて「student」を生成します。

2.2 ChatGPT はどのようにしてトレーニングの効果を向上させるのでしょうか?

ChatGPTは、大規模言語モデル（LLM）生成分野における新たな学習パラダイムであるRLHF（Reinforcement Learning from Human Feedback）を基盤としています。RLHFは、人間のフィードバックから得られる強化学習に基づいて言語モデルを最適化します。RLHFの学習には、TAMERフレームワーク（Training an Agent Manually via Evaluative Reinforcement）が参考になります。

RLHFは複数のモデルと様々なトレーニング段階を伴う複雑な概念です。ここでは3つのステップに分けて説明します。
言語モデル (LM) を事前トレーニングします。
質問と回答のデータを集約し、報酬モデル (RM) をトレーニングします。
強化学習 (RL) を使用した LM の微調整。

GPT3で学習された大規模言語モデルは、確率分布に基づいて次に最も可能性の高い単語を計算します。事実や論理の正確性は無視され、固有の意識も欠如しているため、一見無意味な文を生成することもあります。RLHFは、生成されたテキストに対する人間のフィードバックをパフォーマンス指標として、あるいはさらに言えばモデルを最適化するための報酬として利用することで、一般的なテキストコーパスで学習された言語モデルを人間の複雑な価値観に整合させることができます。具体的な手順は以下のとおりです。

まず、従来の事前学習目標を用いて言語モデルを学習します。このステップでは、OpenAIは最初の人気RLHFモデルであるInstructGPTでGPT-3の小型版を使用しました。その後、以下の手順が実行されます。

教師あり政策言語モデルのトレーニング

GPT-3自体は、人間の指示が暗示する様々な意図を認識できず、生成されたコンテンツが高品質かどうかを判断することも困難です。この問題を解決するために、学習プロセスではデータセットからランダムに質問を選択し、高品質な回答を提供する人間のアノテーターによってアノテーションが付与されます。これは、一連の手動で作成された質問とそれに対応する回答データセットを提供することに相当します。その後、GPT-3.5モデルは、これらの手動でアノテーションされたデータセットを用いて微調整され、SFT（Supervised Fine-Tune）モデルが得られます。

トレーニング報酬モデル

学習方法：第1段階のモデルに基づいて、ランダムに質問が選択され、複数の異なる回答が提示されます。最適な回答は手動で選択され、ラベル付けされます。これは、個別指導に似ています。高品質な回答の報酬値は、次の強化学習（RL）ラウンドに入力され、出力に対する人間の好みを予測する報酬モデルを学習します。

強化学習モデル（LM）の学習は、RLHFが従来のパラダイムから脱却する第一歩となります。このモデルは一連のテキストを受け取り、人間の好みに数値的に対応するスカラー報酬を返します。LMはエンドツーエンドでモデル化することも、モジュールシステム（例えば、出力をランク付けし、そのランク付けを報酬に変換する）でモデル化することもできます。この報酬値は、既存の強化学習（RL）アルゴリズムとのシームレスな統合に不可欠です。

モデル選択に関して、リソースマネージャ（RM）は、微調整された別のモデル（LM）を使用することも、嗜好データに基づいてゼロから学習されたLMを使用することもできます。例えば、Anthropicは、事前学習後の一般的な微調整プロセスを嗜好モデル事前学習（PMP）に置き換える特別な事前学習手法を提案しました。LMの微調整はサンプルデータをより有効に活用できると考えられていますが、どのRMが優れているかについては依然としてコンセンサスが得られていません。

近似ポリシー最適化（PPO）

報酬モデルのポリシーはPPOを用いて最適化されます。報酬モデルの出力はスカラー報酬として使用され、教師ありポリシーはPPOアルゴリズムを用いて微調整され、報酬が最適化されます。

学習方法：PPOの中心的な目的は、人間のオンライン学習をオフライン学習に変換し、機械が自己採点できるようにすることです。第2段階で学習された報酬モデルを用いて、データセットからランダムに質問が選択され、PPOモデルは複数の回答を生成します。各回答には、前段階で学習されたRMモデルによって提供された品質スコアが付与されます。その後、報酬スコアは順次渡され、方策勾配が生成されます。PPOモデルのパラメータは強化学習によって更新されます。

最後に、ステップ 2 と 3 を繰り返して、モデルを継続的に改善することができます。

PPO アルゴリズムに関する追加の注意事項:

長らく、強化学習を用いた学習モデル（LM）の学習は、工学的およびアルゴリズム的な理由から不可能と考えられてきました。しかしながら、いくつかの組織が、方策勾配強化学習（PRL）アルゴリズムと近似方策最適化（PPO）を用いて、初期LMのパラメータの一部またはすべてを微調整する実現可能なソリューションを見出しました。PPOアルゴリズムは比較的古くから存在し、その原理に関するガイドラインも数多く存在するため、RLHF（強化学習）には最適な選択肢となっています。

我々は、微調整タスクを強化学習問題として定式化する。まず、ポリシーは、プロンプトを受け取り、一連のテキスト（またはそれらのテキストの確率分布）を返すロジックモデル（LM）である。このポリシーの行動空間は、LMの語彙（通常は5万語程度）に対応するすべての語彙集であり、観測空間は入力語彙集の可能なシーケンスである（語彙サイズは入力トークンの数とほぼ等しく、これは比較的大きい）。報酬関数は、選好モデルとポリシーシフト制約の組み合わせである。

PPOアルゴリズムによって決定される報酬関数は、次のように計算されます。初期LMと現在微調整されているLMにキューxが入力され、それぞれ出力テキストy1とy2が生成されます。現在のポリシーのテキストはRMに渡され、スカラー報酬rθが得られます。2つのモデルによって生成されたテキストが比較され、その差に対するペナルティ項が計算されます。これにより、各トレーニングバッチにおいて初期モデルから大きく逸脱するRLポリシーにペナルティが課され、モデルが妥当で一貫性のあるテキストを出力することが保証されます。

PPOアルゴリズムによって決定される報酬関数

ChatGPTは、手動でラベル付けされたプロンプトと応答を用いて、SFT教師ありポリシーモデルを学習します。次に、ランダム化された質問を通してモデルから複数の回答を生成し、それらを手動でランク付けすることで報酬モデルを生成します。最後に、PPO強化学習を用いて報酬効果を高めます。これにより、ChatGPTは指示の意図をより深く理解し、トレーナーの価値観に沿った出力を実行できるようになります。

最後に、大規模言語モデルは、実証済みかつ実現可能な方向性として、「大規模」な意味を持つと言えるでしょう。これは、幅広いデータセット、多数のパラメータとレイヤー、そして高い計算コストを伴うためです。その価値は、その汎用性と幅広い適用シナリオにあります。大規模言語モデルの開発は、主にその優れた並列スケーラビリティに起因しています。データ量と計算量が増加するにつれて、エンジニアリングと最適化が主な課題となります。海外では、GPTに加えて、LLama、PaLMなどが存在します。国内でも、基盤技術の多くが既に存在しているため、関連する研究が盛んに行われています。近年、中国は急速に追い上げを見せており、約6ヶ月でGPT 3.5レベルに到達すると予想されています。NineDataもこの方向性に非常に楽観的であり、既に大規模言語モデルをNineDataプラットフォームのSQL開発に適用し、自然言語による直接的なデータ検索と変更、データベースに関する質問や知識に関するQ&A、データベースSQL最適化の提案などの機能を提供しています。今後、さらに価値の高い機能をリリースしていく予定ですので、ぜひログインしてプラットフォームをご利用ください。
https://www.ninedata.cloud

著者について:

陳長成（天宇）は、九章算術の技術担当副社長であり、アリババクラウドの元シニアテクニカルエキスパートです。15年間にわたりデータベース分野に深く関わっており、アリババのデータベースインフラストラクチャの進化（IOEから分散型、マルチサイトアクティブ/アクティブ、コンテナ化ストレージとコンピューティング分離へ）と、クラウドネイティブデータベースツールシステムの構築を主導しました。

Chen Changcheng (Tianyu)、Jiuzhang Arithmetic の技術担当副社長、元 Alibaba Cloud のシニアテクニカルエキスパート。

参考文献:

Google Brain：「必要なのは注意力だけ」

OpenAI：「生成的事前学習による言語理解の向上」

OpenAI：「言語モデルは教師なしマルチタスク学習者である」

OpenAI：「言語モデルは少数ショット学習者」

OpenAI：「人間のフィードバックによる指示に従う言語モデルのトレーニング」

ルーク・チェン: https://github.com/huggingface/blog/blob/main/zh/rlhf.md

ジェイ・アランマー: http://jalammar.github.io/illustrated-transformer/

HUOXIU

大規模言語モデル技術の原則

I. 大規模言語モデルの開発

1.1 トランスフォーマーモデルの提案

1.2 生成的事前学習は初期の潜在能力を示す: GPT-1

1.3 一般化能力のブレークスルー：GPT-2

1.4 より大きなパラメータとより大きなデータセット: GPT3

1.5 大人気のChatGPT: GPT 3.5

1.6 現在の技術的限界

II. 主要な技術的詳細

2.1 トランスフォーマーとは何ですか?

エンコーダ/デコーダコンポーネント構造

自己注意原理

ヘッドメカニズムにもっと注意を払う

2.2 ChatGPT はどのようにしてトレーニングの効果を向上させるのでしょうか?

著者について:

参考文献:

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ