著者 | ジェイ・アラマー 編纂者:岳陽 DeepSeek-R1は、人工知能開発における新たな重要なマイルストーンです。機械学習分野の研究者や開発者にとって、このリリースは主に以下の2つの理由から大きな注目を集めています。
この記事では、このモデルの構築プロセスについて説明します。 目次 01 レビュー:大規模言語モデル(LLM)の学習法 DeepSeek-R1の2つのトレーニングステップ 2.1 - 長い推論チェーンのためのSFTデータ 2.2 - 推論に優れた、移行的で高品質な大規模言語モデル(ただし、非推論タスクではパフォーマンスが若干低下します)。 2.3 - 大規模強化学習(RL)を用いた推論モデルの構築 2.3.1 - 推論指向大規模強化学習(R1-Zero) 2.3.2 - 遷移推論モデルを用いたSFT推論データの生成 2.3.3 - 従来の強化学習トレーニングフェーズ 03 モデルアーキテクチャ 01 レビュー:大規模言語モデル(LLM)の学習法既存の大規模言語モデルの多くと同様に、DeepSeek-R1はトークンを一つずつ生成しますが、その独自の強みは数学的問題や推論問題を解く能力にあります。これは、一連の思考トークンを生成することで思考プロセスを詳細化し、問題をより深く掘り下げることができるためです。 以下の画像は、書籍 *Hands-On Large Language Models* の第 12 章から引用したもので、高品質の大規模言語モデルを作成するための 3 つの主な手順を示しています。 1)言語モデリングの段階では、大量のネットワークデータを使用してモデルをトレーニングし、次の単語を予測して基本モデルを取得します。 2)教師あり微調整段階: このステップでは、モデルが指示を実行し、質問に答える能力が向上し、指示に最適化されたモデルまたは教師あり微調整/SFT モデルが生成されます。 3) 最後に、嗜好調整段階があります。この段階では、モデルの動作が人間の嗜好にさらに適合するように最適化され、最終的には様々なプラットフォームやアプリケーションで使用できる嗜好調整されたLLMが完成します。 DeepSeek-R1の2つのトレーニングステップDeepSeek-R1はこの一般的なフレームワークに従っています。最初のステップの具体的な内容は、DeepSeek-V3モデルに関する以前の研究論文[1]に由来しています。R1は、その論文で使用されているベースモデル(最終的なDeepSeek-V3モデルではありません)を使用し、SFT(教師あり微調整)およびプリファレンスチューニング段階も実行しますが、その独自性はこれらの段階の具体的な操作方法にあります。 R1 の構築中に特に注意する必要がある重要なポイントが 3 つあります。 2.1 長い推論チェーンのためのSFTデータこれらの長い思考連鎖推論のインスタンス数は膨大で(合計60万件に達します)、これほど大量のインスタンスを取得することは非常に困難であり、手作業によるアノテーションに頼ると莫大なコストがかかります。したがって、これらのインスタンスを作成するプロセスは、私たちが強調すべき2つ目の独自性です。 2.2 推論能力に優れた、移行期の質の高い法学修士(ただし、推論以外のタスクではやや効果が低い)これらのデータは、R1の前身である、推論に特化した無名の姉妹モデルによって生成されました。この姉妹モデルは、後ほど説明する別のモデルであるR1-Zeroに触発されました。その重要性は、非常に有用なLLMであることではなく、その作成プロセスがほぼ完全に大規模強化学習に依存し、ラベル付きデータをほとんど必要とせずに推論問題の処理に優れたモデルを構築した点にあります。 次に、この名前のない推論エキスパート モデルの出力を使用して、推論タスクを処理できるだけでなく、他の種類のタスクにも対応できる、大規模言語モデル (LLM) に対するユーザーの一般的な期待に応える、より汎用性の高いモデルをトレーニングできます。 2.3 大規模強化学習(RL)を用いた推論モデルの構築これには 2 つのステップが含まれます。 2.3.1 - 推論指向大規模強化学習(R1-Zero)このプロセスでは、強化学習(RL)を用いて一時的な推論モデルを構築します。このモデルは、教師あり微調整(SFT)のための推論例を生成するために使用されます。しかし、このモデル作成の鍵は、DeepSeek-R1-Zeroと呼ばれる初期モデルの構築に成功した以前の実験にあります。 R1-Zeroは、ラベル付きSFTトレーニングセットがなくても推論タスクで非常に優れたパフォーマンスを発揮できるという点で独特です。トレーニングプロセスは、事前学習済みのベースモデルから直接開始し、強化学習(SFT段階をスキップ)によって学習します。そのパフォーマンスは傑出しており、O1モデルに匹敵します。 データは常に機械学習モデルの能力を強力に推進してきたため、この成果は意義深いものです。では、このモデルはどのようにしてこの伝統を打ち破ったのでしょうか?それは主に以下の2点によるものです。 1- 最新のベースモデルは、品質と機能の面で臨界点に達しています (このベースモデルは、最大 14.8 兆個の高品質トークンでトレーニングされました)。 2. 一般的なチャットやライティングリクエストとは異なり、推論に関する質問は自動的に検証または注釈が付けられます。これは次の例で説明できます。 例: 推論問題の自動検証 以下は、RL トレーニング プロセスで表示される可能性があるプロンプト/質問です。
このような質問は自動検証に適しています。学習中のモデルにこの質問を投げかけると、次のような結果が生成されます。
トレーニングプロセス中に、モデルにそのような質問を投げかけ、複数の可能な解決策を生成することができます。 人間の介入なしにチェックを自動化し、最初の出力は全くコードではないことを発見できます。2番目の出力はコードですが、Pythonコードではありません。3番目の出力は解決策のように見えますが、ユニットテストに合格していません。一方、4番目の出力は正しい解決策です。 これらのフィードバック信号は、モデルの最適化に直接利用できます。もちろん、このプロセスは、多数のサンプル(ミニバッチ)と連続的なトレーニングステップを通じて実行されます。 これらの報酬信号とモデルの更新は、下の図に示すように、強化学習のトレーニング中にモデルを継続的に改善するための鍵となります。 この改善された機能に加えて、モデルはより長い応答を生成しました。つまり、問題に対処するためにより多くの思考トークンが使用されるようになったということです。 このプロセスの価値ある性質にもかかわらず、推論問題において R1-Zero モデルが達成した高スコアには、その実用的な有用性が最大限に発揮されるのを妨げるいくつかの問題がまだあることが明らかになっています。
R1モデルの設計目標は、ユーザビリティの向上です。そのため、DeepSeek-R1-Zeroは強化学習プロセスのみに依存するのではなく、前述のように、以下の2つの側面で役割を果たします。 1- 教師あり微調整 (SFT) のデータ ポイントを生成する遷移推論モデルを作成します。 2- R1 モデルをトレーニングして、推論問題と非推論問題の両方で進歩できるようにします (他の種類の検証ツールを使用)。 2.3.2 - 遷移推論モデルを用いたSFT推論データの生成遷移推論モデルの実用性を向上させるため、教師あり微調整(SFT)を用いてモデルを学習しました。これは、数千の推論問題例(一部はR1-Zeroによって生成・フィルタリングされたもの)に対して実行された手順です。本論文では、これらの例は「コールドスタートデータ」と呼ばれています。
しかし、既にデータがあるのに、なぜ強化学習に頼る必要があるのかと疑問に思うかもしれません。その答えはデータの規模にあります。R1の学習には60万個のデータが必要ですが、私たちが持っているデータセットは5,000個のサンプルしかないかもしれません。この移行モデルは、このギャップを埋め、極めて重要なデータを統合・生成するのに役立ちます。 教師ありファインチューニング(SFT)という概念に馴染みがないかもしれません。これは、モデルの学習例をプロンプトと正しい補完の形で提示する学習プロセスです。次の画像は、『Hands-On Large Language Models』の第12章に掲載されているSFT学習例です。 2.3.3 - 従来の強化学習トレーニングフェーズこのように、R1モデルは推論タスクに優れているだけでなく、他の非推論タスクも効果的に処理します。このプロセスは前述の強化学習プロセスに似ていますが、非推論領域への応用もカバーしているため、これらの応用領域における手がかり語の処理のために、効用報酬モデルとセキュリティ報酬モデル(Llamaモデルに類似)も導入されています。 03 モデルアーキテクチャDeepSeek-R1は、先行技術であるGPT2[2]およびGPT3[3]と同様に、積層されたTransformer[4]デコーダーブロックで構成されており、合計61個のブロックで構成されています。最初の3つのブロックはデンスレイヤーであり、後続のブロックはハイブリッドエキスパートレイヤー(MoE)を使用しています。 モデルの次元およびその他のハイパーパラメータ構成に関する具体的な情報は次のとおりです。 モデル アーキテクチャの詳細については、以前に公開された 2 つの論文を参照してください。
04 結論上記の内容を通じて、DeepSeek-R1 モデルの基本を理解できたはずです。 この記事を理解するためにもっと基本的な知識が必要だと感じた場合は、Hands-On Large Language Models[6]を入手するか、O'Reilly[7]でオンラインで読んでGithub[8]で確認することをお勧めします。 読んでくれてありがとう! このブログを楽しんで、新しいことを学んでいただければ幸いです。 著者について ジェイ・アラマー 機械学習の研究開発。ビルダー。ライター。人工知能と機械学習を概念ごとに視覚化。@CohereAI。 終わり 今週のインタラクティブコンテンツ🍻 ❓AIモデルが習得するのが最も難しい推論能力は何だと思いますか?ぜひコメント欄であなたの考えを共有してください👇 🔗記事内のリンク🔗 [1]https://arxiv.org/pdf/2412.19437v1 [2]https://jalammar.github.io/illustrated-gpt2/ [3]https://jalammar.github.io/how-gpt3-works-visualizations-animations/ [4]https://jalammar.github.io/illustrated-transformer/ [5]https://arxiv.org/pdf/2401.06066 [6]https://www.llm-book.com/ [7]https://learning.oreilly.com/library/view/hands-on-large-language/9781098150952/ [8]https://github.com/handsOnLLM/Hands-On-Large-Language-Models オリジナルリンク: https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1 |
01 レビュー:大規模言語モデル(LLM)の学習法DeepSeek-R1の2つのトレーニングステップ2.1 長い推論チェーンのためのSFTデータ2.2 推論能力に優れた、移行期の質の高い法学修士(ただし、推論以外のタスクではやや効果が低い)2.3 大規模強化学習(RL)を用いた推論モデルの構築2.3.1 - 推論指向大規模強化学習(R1-Zero)2.3.2 - 遷移推論モデルを用いたSFT推論データの生成2.3.3 - 従来の強化学習トレーニングフェーズ03 モデルアーキテクチャ04 結論 |