HUOXIU

DeepSeek とエンタープライズ プラクティスの詳細な理解 (パート 2): 32B マルチ GPU 推論の原理、ハードウェアの放熱、パフォーマンス テスト。

序文

記事「DeepSeekの深層理解とエンタープライズプラクティス(パート1):蒸留、展開、評価」では、ディープラーニングモデルの蒸留・量子化技術、そして7Bモデルの展開基盤について詳しく説明しました。通常、7Bモデルとそのすべてのパラメータを実行するには、1枚のGPUメモリカードで十分です。しかし、モデルのパラメータ数が32B(320億)レベルに増加すると、1枚のGPUメモリカードではフル稼働をサポートできなくなることがよくあります。この時点で、マルチGPU並列推論の概念を導入するとともに、サーバーがマルチGPUハードウェアアーキテクチャをサポートできるかどうかも検討する必要があります。

本稿では、DeepSeek-Distilled-Qwen-32Bの導入を例に、マルチGPU並列処理の原理とマルチGPUサーバーハードウェア導入における注意点について考察します。さらに、32Bモデルのパフォーマンスと推論能力を評価し、このモデルに適したシナリオを分析し、提案します。

目次

I. 32Bモデルの展開におけるメモリ要件の評価

II. マルチカード推論の原理分析

III. サーバーハードウェアの展開とGPU構成

IV. AIOS Smart TowerにDeepSeek-Distilled-Qwen-32Bをワンクリックで導入

V. 能力評価:MMLUやHumanEvalなどのベンチマークテスト

VI. 32Bモデルの応用シナリオと展望

VII. 展望:大規模パラメータモデルの展開戦略

I. 32Bモデルの展開におけるメモリ要件の評価

32ビットモデルを展開する場合、精度、コンテキスト長、バッチサイズなどのレベルの違いが、GPUメモリと計算能力の要件に大きな影響を与えます。主要な影響要因については既に前のセクションで説明しましたので、ここでは繰り返さず、推定値を直接示します。

さまざまな量子化方法 (データ パッキング、FP8 形式の量子化など) の複雑さを考慮すると、Int8 と Int4 の記述はあまり正確ではなくなるため、ここでは単純に 8 ビットの量子化と 4 ビットの量子化を使用して推定します。

さらに、異なるレイヤーでの異なる量子化戦略、データ構造の精度、KV キャッシュの量子化が有効かどうか、または異なる推論フレームワークの使用によっても矛盾が発生する可能性があります。

II. マルチカード推論の原理分析

前述の計算に基づくと、大規模なコンテキスト、特に高精度データを扱う場合、単一のグラフィックカードではメモリ要件を満たすのに苦労することがわかります。現在、一般的なコンシューマー向けグラフィックカードのビデオメモリは24GB未満であるのに対し、一般的な推論用グラフィックカードは48GB、一部のハイエンドGPUでは64~141GBのビデオメモリを搭載しています。

したがって、32B以上のパラメータを持つモデルサービスの場合、マルチGPU推論は基本的に唯一の選択肢となります。現在、主なマルチGPU並列化戦略には、テンソル並列化とパイプライン並列化があります。

1. テンソルパラレル

単一のテンソルを次元ごとに分割し、複数の GPU 間で同じ操作を並列に計算します。

利点: 計算と通信を重ねることができるため、効率が向上します。

デメリット: 実装の複雑さが高く、GPU 間の通信帯域幅とレイテンシに対する要件が高く、2、4、8、16 などの 2 の整数乗に従って分割する必要がある。

2. パイプライン並列

モデルの異なるレイヤーは異なる GPU に割り当てられ、アクティベーション値は生産ラインと同様に上流 GPU と下流 GPU の間で順番に渡されます。

利点: 同期通信のオーバーヘッドが削減され、通信帯域幅と遅延の要件が低くなります。

デメリット: 生産ラインで空になる可能性があり、リソースが無駄になります。

3. 並列戦略の比較

上記の表から、テンソル並列処理は全体的なスループットの向上に効果的である一方、パイプライン並列処理は実装が比較的容易で、CPUとGPUが混在する推論シナリオにも適していることがわかります。そのため、ollamaが使用する推論エンジンであるllama.cppはパイプライン並列処理を採用しており、これがllama.cppのマルチGPUパフォーマンスが比較的低い理由でもあります。

III. サーバーハードウェアの展開とGPU構成

1. 2Uサーバーに複数のGPUをインストールする際の課題

これまでの内容を踏まえると、サーバーに搭載するGPUの最適な数は2の整数乗、つまり2、4、8、16枚であることが分かります。これにより、テンソル並列処理によって最適なパフォーマンスが得られます。ただし、一般的に使用されている2Uサーバーの場合、2枚のGPUの搭載は一般的に大きな問題にはなりませんが、4枚のGPUの搭載は課題となる可能性があります。

上図に示すように、一般的に使用されているGPUはダブル幅で、PCIeスロットを2つ占有します。しかし、他のデバイスがスロットを占有する状況を考慮しないとしても、一般的な2UサーバーにはGPUを3つしか搭載できません。これは2のべき乗に該当しないため、最大限に機能を発揮できるのは2つのGPUだけです。

2. 解決策

  • フロント パネルのハード ドライブの数を減らす: 放熱用のスペースを解放し、複数の小容量ハード ドライブの代わりに大容量ハード ドライブを使用します。

  • マルチ GPU モジュールのインストールの場合: 一部のサーバー メーカーは、上部の 1U スペース全体を GPU のインストール用に予約する専用の GPU モジュールを設計しており、最大 4 つのデュアル幅 GPU を並べてインストールできます。

この時点では、フロントパネルの放熱のためにエアフローを確保する必要があるため、フロントパネルには3.5インチハードドライブを8台しか搭載できません。十分な容量を確保するには、より大容量のハードドライブを使用する必要があります。

より多くのハードドライブやより優れた冷却機能が必要な場合は、3U、4U、あるいはそれ以上のサーバーが必要になります。最適なソリューションは、ラックの電源供給とGPUの消費電力を考慮して決定できます。

IV. AIOS Smart TowerにDeepSeek-Distilled-Qwen-32Bをワンクリックで導入

1. 展開手順

環境設定

展開手順

環境の準備: ZStack AIOS をインストールし、システムが動作要件を満たしていることを確認します。

ワンクリック展開:

ZStack AIOS を使用してモデルを選択して読み込みます。

モデルを実行するための GPU とコンピューティング仕様を指定したら、モデルをデプロイできます。

テスト実行: エクスペリエンス ダイアログ ボックスで会話エクスペリエンスを試したり、API 経由で他のアプリケーションに接続したりできます。

DeepSeek 32B ワンクリック展開

2. パフォーマンス評価

ZStack AIOSのパフォーマンス評価ツールを使用すると、現在のハードウェア上でのモデルのパフォーマンスを迅速に評価できます。データは以下のようにまとめられます。

上記の評価結果に基づいて、現在の環境状況を分析することができます。

スループット(TPS)と同時実行性の関係

  • 同時接続ユーザー数が 1 から 16 に増加すると、TPS は大幅に増加します (23→256)。ただし、同時接続ユーザー数が 32 に達すると、TPS の増加率は急激に鈍化します (わずか 15% の増加)。

  • 推奨される同時接続範囲: 4 ~ 16 の同時接続で優れたスループットが得られます。

  • ピーク変曲点: 同時実行数が 16 を超えると、システムはパフォーマンスのボトルネックに近づきます。

応答遅延に関する主な調査結果

  • TTFT (初回応答時間) は、同時接続が 32 の場合に 25 秒に大幅に増加します (同時接続が 1 の場合の 0.06 秒と比較)。

  • 同時ユーザー数が 32 人の場合、合計レイテンシは 64 秒を超えました。これは同時ユーザー数が少ない場合の 2.7 倍です。

  • リアルタイム シナリオに関する推奨事項: 応答速度に敏感なシナリオ (対話システムなど) では、同時実行性を 4 以下に保つ必要があります。

資源効率分析

  • 単一の同時セッションのスループットは 23.248 ですが、32 の同時セッションでは 9.198 に低下します (60% の減少)。

  • 同時セッションが 16 回を超えると、各新規セッションの限界利益は大幅に減少します。

  • リソース最適化の推奨事項: 高い同時実行性を実現するために単一のインスタンスを使用するのではなく、16 の同時接続を持つ複数のインスタンスを展開してスケーリングすることをお勧めします。

さまざまなシナリオに推奨される構成

  • ZStack AIOSが提供するモデル評価機能を実際の環境と組み合わせることで、適切なビジネスプランや展開モデルを導き出すことが容易になります。

  • 注:テストデータによると、システムは同時接続数が16で最適なスループットとレイテンシのバランスに達します。このしきい値を超えるとパフォーマンスが大幅に低下します。実際の導入では、ハードウェアリソース構成と併せてストレステストを実施し、パフォーマンスを検証することをお勧めします。

V. 能力評価:MMLUやHumanEvalなどのベンチマークテスト

1. テストメトリクス

回答精度: 専門知識に基づく回答 (MMLU) におけるモデルのパフォーマンスは、モデルの包括的な知識能力を反映します。

コード生成能力:モデルのプログラミング能力はHumanEvalベンチマークで評価されます。コードはコンパイルされ、ユニットテストに合格する必要があります。

数学的推論能力: 数学評価セットで数学的推論を実行し、数学の問題を理解して推論するモデルの能力を実証します。

2. 評価結果

VI. 32Bモデルの応用シナリオと展望

32B モデルは、いくつかの領域で優れた機能を発揮します。

推論速度:最適化により、マルチGPU並列環境における推論速度が大幅に向上し、コストと性能のバランスが取れた推論モデルとなります。

数学的能力: 複雑な計算や数式の導出において優れたパフォーマンスを発揮します。

論理的推論: 複雑な論理的関係を理解し​​、推論する能力。

コード生成:高品質なコードを記述・修正する能力を備えていますが、大規模なコードブロックを直接生成する場合、より大きなパラメータを持つモデルに比べて若干劣ります。コードレビューやコード補完に適しています。

したがって、DeepSeek-Distilled-Qwen-32B が適している可能性があるシナリオをいくつかまとめました。

教材

モデルの知識蓄積と理解力を活用して、補助的な説明、Q&Aセッション、およびコンテンツを教えるその他の機能を提供します。

コードレビュー

モデルのコード理解および生成機能を活用することで、コードを自動的にレビューし、潜在的な問題を特定し、最適化の提案を提供することができます。

特定の専門分野における応用

法律、医学、金融などの専門分野において、高品質なテキスト生成、知識検索、意思決定支援を提供しています。

VII. 展望:大規模パラメータモデルの展開戦略

本稿では、DeepSeek-Distilled-Qwen-32BモデルにおけるマルチGPU並列展開手法、ハードウェア構成要件、そして様々な精度と並列戦略におけるパフォーマンスについて深く理解します。強力な機能を備えた32Bモデルは、エンタープライズアプリケーションに新たな可能性をもたらします。今後、より現実的なシナリオにおいて、このような大規模モデルの価値と可能性を目の当たりにできることを期待しています。

今後の記事では、次の点について検討します。

DeepSeek R1 モデルの量子化展開: 限られたリソースで 671B 規模のモデルを展開する方法。

DeepSeek R1 モデルの完全精度展開: 高性能コンピューティング環境で大規模モデルの機能を最大限に活用する方法。

規模や精度の異なるモデルを比較することで、エンタープライズ アプリケーション向けのより包括的で詳細な展開ソリューションを提供し、より多くの業界が大規模な言語モデル テクノロジを迅速に実装して商業的価値を実現できるようにしたいと考えています。

注:本記事の一部のデータは例示であり、実際の状況とは異なる場合があります。具体的な導入プロセスにおいては、詳細なテストと検証を実施することをお勧めします。