編集者注： DeepSeek-R1の何が特別なのでしょうか？推論タスクでこれほど優れたパフォーマンスを発揮できるのはなぜでしょうか？その成功の根底にある革新的なトレーニング手法は何でしょうか？
数学の問題、プログラミングタスク、論理的分析を解くためのモデルが必要な場合、高品質な推論能力は特に重要です。しかし、従来の学習方法では、多くの人的資源と物的資源が必要となることが多く、多くの研究チームや企業にとって大きな負担となっています。
本稿では、DeepSeek-R1の学習手法を詳細に分析し、革新的な強化学習手法を用いて、限られた量の高品質な手動ラベル付けデータから、卓越した推論能力を備えた高性能AIモデルを構築するという斬新なソリューションを紹介しています。DeepSeekチームが「自動検証メカニズム」を用いてモデルを学習する方法を詳しく説明します。このメカニズムは、手動ラベル付けデータへの依存を大幅に低減し、モデルの推論品質を継続的に向上させます。

著者 | ジェイ・アラマー

編纂者：岳陽

DeepSeek-R1は、人工知能開発における新たな重要なマイルストーンです。機械学習分野の研究者や開発者にとって、このリリースは主に以下の2つの理由から大きな注目を集めています。

まず、これはオープンソースの加重モデルであり、より小さく、精製されたバージョンを提供します。
第二に、OpenAI O1と同様の推論モデルを再現できるトレーニング方法を公開し、詳細に検討しました。

この記事では、このモデルの構築プロセスについて説明します。

01 レビュー：大規模言語モデル（LLM）の学習法

DeepSeek-R1の2つのトレーニングステップ

2.1 - 長い推論チェーンのためのSFTデータ

2.2 - 推論に優れた、移行的で高品質な大規模言語モデル（ただし、非推論タスクではパフォーマンスが若干低下します）。

2.3 - 大規模強化学習（RL）を用いた推論モデルの構築

2.3.1 - 推論指向大規模強化学習（R1-Zero）

2.3.2 - 遷移推論モデルを用いたSFT推論データの生成

2.3.3 - 従来の強化学習トレーニングフェーズ

03 モデルアーキテクチャ

01 レビュー：大規模言語モデル（LLM）の学習法

既存の大規模言語モデルの多くと同様に、DeepSeek-R1はトークンを一つずつ生成しますが、その独自の強みは数学的問題や推論問題を解く能力にあります。これは、一連の思考トークンを生成することで思考プロセスを詳細化し、問題をより深く掘り下げることができるためです。

以下の画像は、書籍 *Hands-On Large Language Models* の第 12 章から引用したもので、高品質の大規模言語モデルを作成するための 3 つの主な手順を示しています。

1)言語モデリングの段階では、大量のネットワークデータを使用してモデルをトレーニングし、次の単語を予測して基本モデルを取得します。

2)教師あり微調整段階: このステップでは、モデルが指示を実行し、質問に答える能力が向上し、指示に最適化されたモデルまたは教師あり微調整/SFT モデルが生成されます。

3) 最後に、嗜好調整段階があります。この段階では、モデルの動作が人間の嗜好にさらに適合するように最適化され、最終的には様々なプラットフォームやアプリケーションで使用できる嗜好調整されたLLMが完成します。

DeepSeek-R1の2つのトレーニングステップ

DeepSeek-R1はこの一般的なフレームワークに従っています。最初のステップの具体的な内容は、DeepSeek-V3モデルに関する以前の研究論文[1]に由来しています。R1は、その論文で使用されているベースモデル（最終的なDeepSeek-V3モデルではありません）を使用し、SFT（教師あり微調整）およびプリファレンスチューニング段階も実行しますが、その独自性はこれらの段階の具体的な操作方法にあります。

R1 の構築中に特に注意する必要がある重要なポイントが 3 つあります。

2.1 長い推論チェーンのためのSFTデータ

これらの長い思考連鎖推論のインスタンス数は膨大で（合計60万件に達します）、これほど大量のインスタンスを取得することは非常に困難であり、手作業によるアノテーションに頼ると莫大なコストがかかります。したがって、これらのインスタンスを作成するプロセスは、私たちが強調すべき2つ目の独自性です。

2.2 推論能力に優れた、移行期の質の高い法学修士（ただし、推論以外のタスクではやや効果が低い）

これらのデータは、R1の前身である、推論に特化した無名の姉妹モデルによって生成されました。この姉妹モデルは、後ほど説明する別のモデルであるR1-Zeroに触発されました。その重要性は、非常に有用なLLMであることではなく、その作成プロセスがほぼ完全に大規模強化学習に依存し、ラベル付きデータをほとんど必要とせずに推論問題の処理に優れたモデルを構築した点にあります。

次に、この名前のない推論エキスパートモデルの出力を使用して、推論タスクを処理できるだけでなく、他の種類のタスクにも対応できる、大規模言語モデル (LLM) に対するユーザーの一般的な期待に応える、より汎用性の高いモデルをトレーニングできます。

2.3 大規模強化学習（RL）を用いた推論モデルの構築

これには 2 つのステップが含まれます。

2.3.1 - 推論指向大規模強化学習（R1-Zero）

このプロセスでは、強化学習（RL）を用いて一時的な推論モデルを構築します。このモデルは、教師あり微調整（SFT）のための推論例を生成するために使用されます。しかし、このモデル作成の鍵は、DeepSeek-R1-Zeroと呼ばれる初期モデルの構築に成功した以前の実験にあります。

R1-Zeroは、ラベル付きSFTトレーニングセットがなくても推論タスクで非常に優れたパフォーマンスを発揮できるという点で独特です。トレーニングプロセスは、事前学習済みのベースモデルから直接開始し、強化学習（SFT段階をスキップ）によって学習します。そのパフォーマンスは傑出しており、O1モデルに匹敵します。

データは常に機械学習モデルの能力を強力に推進してきたため、この成果は意義深いものです。では、このモデルはどのようにしてこの伝統を打ち破ったのでしょうか？それは主に以下の2点によるものです。

1- 最新のベースモデルは、品質と機能の面で臨界点に達しています (このベースモデルは、最大 14.8 兆個の高品質トークンでトレーニングされました)。

2. 一般的なチャットやライティングリクエストとは異なり、推論に関する質問は自動的に検証または注釈が付けられます。これは次の例で説明できます。

例: 推論問題の自動検証

以下は、RL トレーニングプロセスで表示される可能性があるプロンプト/質問です。

数字のリストを受け取り、ソートされたリストを返し、リストの先頭に数字 42 を追加する Python コードを記述します。

このような質問は自動検証に適しています。学習中のモデルにこの質問を投げかけると、次のような結果が生成されます。

ソフトウェア構文チェッカーを使用して、生成されたコードが有効な Python コードであるかどうかを確認できます。
この Python コードを実行して、正常に実行されるかどうかを確認できます。
その他の最新のコード生成 LLM は、コードが期待どおりに動作することを確認するためのユニットテストを作成できます (LLM 自体に推論機能は必要ありません)。
さらに進んで、コードの実行時間を測定することで、他のソリューションも正しい Python プログラムである場合でも、トレーニングプロセスでパフォーマンスの優れたソリューションを優先させることができます。

トレーニングプロセス中に、モデルにそのような質問を投げかけ、複数の可能な解決策を生成することができます。

人間の介入なしにチェックを自動化し、最初の出力は全くコードではないことを発見できます。2番目の出力はコードですが、Pythonコードではありません。3番目の出力は解決策のように見えますが、ユニットテストに合格していません。一方、4番目の出力は正しい解決策です。

これらのフィードバック信号は、モデルの最適化に直接利用できます。もちろん、このプロセスは、多数のサンプル（ミニバッチ）と連続的なトレーニングステップを通じて実行されます。

これらの報酬信号とモデルの更新は、下の図に示すように、強化学習のトレーニング中にモデルを継続的に改善するための鍵となります。

この改善された機能に加えて、モデルはより長い応答を生成しました。つまり、問題に対処するためにより多くの思考トークンが使用されるようになったということです。

このプロセスの価値ある性質にもかかわらず、推論問題において R1-Zero モデルが達成した高スコアには、その実用的な有用性が最大限に発揮されるのを妨げるいくつかの問題がまだあることが明らかになっています。

DeepSeek-R1-Zero は優れた推論能力を発揮し、独自に驚くほど強力な推論動作を開発しましたが、テキストの読みにくさや言語の混在などの課題にも遭遇しました。

R1モデルの設計目標は、ユーザビリティの向上です。そのため、DeepSeek-R1-Zeroは強化学習プロセスのみに依存するのではなく、前述のように、以下の2つの側面で役割を果たします。

1- 教師あり微調整 (SFT) のデータポイントを生成する遷移推論モデルを作成します。

2- R1 モデルをトレーニングして、推論問題と非推論問題の両方で進歩できるようにします (他の種類の検証ツールを使用)。

2.3.2 - 遷移推論モデルを用いたSFT推論データの生成

遷移推論モデルの実用性を向上させるため、教師あり微調整（SFT）を用いてモデルを学習しました。これは、数千の推論問題例（一部はR1-Zeroによって生成・フィルタリングされたもの）に対して実行された手順です。本論文では、これらの例は「コールドスタートデータ」と呼ばれています。

2.3.1. コールドスタートフェーズ
DeepSeek-R1-Zeroとは異なり、強化学習トレーニングの初期段階でベースモデルが不安定なコールドスタートに陥るのを防ぐため、少量の長い思考連鎖（CoT）データを構築・収集し、DeepSeek-R1を初期の強化学習ポリシーモデルとして使用してモデルを微調整しました。このタイプのデータを収集するために、いくつかの方法を検討しました。長いCoTの例に少量のヒントを使用する方法、リフレクションと検証によってモデルに詳細な回答を直接生成させる方法、DeepSeek-R1-Zeroによって生成された読みやすい出力を収集する方法、そして人間のアノテーターによる後処理によって結果を洗練させる方法などです。

しかし、既にデータがあるのに、なぜ強化学習に頼る必要があるのかと疑問に思うかもしれません。その答えはデータの規模にあります。R1の学習には60万個のデータが必要ですが、私たちが持っているデータセットは5,000個のサンプルしかないかもしれません。この移行モデルは、このギャップを埋め、極めて重要なデータを統合・生成するのに役立ちます。

教師ありファインチューニング（SFT）という概念に馴染みがないかもしれません。これは、モデルの学習例をプロンプトと正しい補完の形で提示する学習プロセスです。次の画像は、『Hands-On Large Language Models』の第12章に掲載されているSFT学習例です。

2.3.3 - 従来の強化学習トレーニングフェーズ

このように、R1モデルは推論タスクに優れているだけでなく、他の非推論タスクも効果的に処理します。このプロセスは前述の強化学習プロセスに似ていますが、非推論領域への応用もカバーしているため、これらの応用領域における手がかり語の処理のために、効用報酬モデルとセキュリティ報酬モデル（Llamaモデルに類似）も導入されています。

03 モデルアーキテクチャ

DeepSeek-R1は、先行技術であるGPT2[2]およびGPT3[3]と同様に、積層されたTransformer[4]デコーダーブロックで構成されており、合計61個のブロックで構成されています。最初の3つのブロックはデンスレイヤーであり、後続のブロックはハイブリッドエキスパートレイヤー（MoE）を使用しています。

モデルの次元およびその他のハイパーパラメータ構成に関する具体的な情報は次のとおりです。

モデルアーキテクチャの詳細については、以前に公開された 2 つの論文を参照してください。

DeepSeek-V3技術レポート[1]
DeepSeekMoE: 専門家混合言語モデルにおける究極の専門家特化に向けて[5]

04 結論

上記の内容を通じて、DeepSeek-R1 モデルの基本を理解できたはずです。

この記事を理解するためにもっと基本的な知識が必要だと感じた場合は、Hands-On Large Language Models[6]を入手するか、O'Reilly[7]でオンラインで読んでGithub[8]で確認することをお勧めします。

読んでくれてありがとう！

このブログを楽しんで、新しいことを学んでいただければ幸いです。

著者について

ジェイ・アラマー

機械学習の研究開発。ビルダー。ライター。人工知能と機械学習を概念ごとに視覚化。@CohereAI。

終わり

今週のインタラクティブコンテンツ🍻

❓AIモデルが習得するのが最も難しい推論能力は何だと思いますか？ぜひコメント欄であなたの考えを共有してください👇

🔗記事内のリンク🔗

[1]https://arxiv.org/pdf/2412.19437v1

[2]https://jalammar.github.io/illustrated-gpt2/

[3]https://jalammar.github.io/how-gpt3-works-visualizations-animations/

[4]https://jalammar.github.io/illustrated-transformer/

[5]https://arxiv.org/pdf/2401.06066

[6]https://www.llm-book.com/

[7]https://learning.oreilly.com/library/view/hands-on-large-language/9781098150952/

[8]https://github.com/handsOnLLM/Hands-On-Large-Language-Models

オリジナルリンク:

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

HUOXIU

イラストシリーズ | DeepSeek-R1 の優れた推論能力はどこから来るのか?

01 レビュー：大規模言語モデル（LLM）の学習法

DeepSeek-R1の2つのトレーニングステップ

2.1 長い推論チェーンのためのSFTデータ

2.2 推論能力に優れた、移行期の質の高い法学修士（ただし、推論以外のタスクではやや効果が低い）

2.3 大規模強化学習（RL）を用いた推論モデルの構築

2.3.1 - 推論指向大規模強化学習（R1-Zero）

2.3.2 - 遷移推論モデルを用いたSFT推論データの生成

2.3.3 - 従来の強化学習トレーニングフェーズ

03 モデルアーキテクチャ

04 結論

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ