HUOXIU

KubeCon ホットトピックレポート: AIStation スケジューリングプラットフォームが RoCE ネットワーク上で大規模モデルの効率的かつ安定したトレーニングを実現

最近、KubeCon + CloudNativeCon + Open Source Summit China 2023カンファレンス(以下、「オープンソーステクノロジーサミット」)において、Inspur Informationは「Kubernetes + RoCEv2に基づく大規模AIインフラストラクチャの構築と大規模モデルトレーニングの実践」に関するレポートを発表しました。レポートでは、Inspur Informationが大規模モデル開発の過程、特に大規模RoCEネットワークの活用シーンにおいて、AIステーション人工知能コンピューティングパワースケジューリングプラットフォームを活用し、大規模モデルトレーニングの安定性と効率性要件を満たし、効率的な長期継続トレーニングを実現する方法について紹介しました。

KubeCon + CloudNativeCon + Open Source Summitは、Linux FoundationとCloud Native Computing Foundation(CNCF)が主催する、オープンソースおよびクラウドネイティブ分野のフラッグシップイベントです。業界で高い評価を得ています。Google、Amazon、Intel、Hugging Faceといった有名企業から、約100名のグローバルな技術専門家や業界リーダーが集まり、クラウドネイティブ関連の最先端の技術成果と知見を共有しました。

大規模モデルのトレーニングでは、RoCE ネットワーク パフォーマンスが低下し、ブレークポイントの問題が発生しています。

大規模モデルは、現在の汎用人工知能産業の発展と革新の中核技術です。しかし、大規模モデルの学習プロセスは非常に複雑であり、多くの課題に直面しています。

一方、大規模モデルのトレーニングでは、通信に対する要求が非常に高くなります。最適なトレーニング結果を得るために、単一のGPUサーバーは通常、InfiniBandやROCEなどの複数の高性能ネットワークカードを使用して、ノード間で高スループットで低遅延の通信を提供します。しかし、さまざまなネットワークソリューションにはそれぞれ長所と短所があります。InfiniBandは優れた性能から大規模モデルのトレーニングに最適な選択肢として広く認識されていますが、価格も高くなります。RoCEは安価ですが、大規模ネットワーク環境では性能と安定性がInfiniBandに劣ります。したがって、大規模モデルのトレーニングの通信要件を満たすには、クラスターネットワーク内で適切な通信デバイスとネットワーク条件を検討・設計する必要があります。

一方、大規模モデルのトレーニングサイクルは通常、数か月に及びます。クラスターコンピューティングの効率は低く、障害は頻繁に発生し、対応も複雑です。そのため、トレーニング中断後の回復が間に合わず、大規模モデルのトレーニング成功率が低下し、トレーニングコストが高くなることがあります。MetaがOpen Pre-trained Transformer (OPT)-175B大規模モデルのトレーニング時に遭遇した大きなエンジニアリング上の問題の一つは、トレーニングの不安定性でした。Metaのトレーニングログには、ハードウェア、インフラストラクチャ、または実験の安定性の問題により、2週間で40回以上再起動されたことが記録されていました。

AIStation は、RoCE ネットワーク上で大規模モデルを効率的かつ安定的にトレーニングすることを可能にします。

大規模モデルの開発と応用における数々の課題に対処するため、Inspur Informationは、大規模モデルビジネス向けにフルスタックのエンドツーエンド・インテリジェントコンピューティング・ソフトウェアスタックを提供する大規模インテリジェントコンピューティング・ソフトウェアスタックOGAI(Open GenAI Infra)をリリースしました。OGAIソフトウェアスタックは5層アーキテクチャで構成されており、そのうちL2層のAIStationは、「ネットワークのRoCE性能と安定性の低さ」や「トレーニングの中断」といった大規模モデルのトレーニングにおける一般的な問題に対処し、高性能で互換性のあるネットワークソリューションとブレークポイント再開機能を提供することで、大規模モデルのトレーニングを保護します。

RoCE ネットワークで大規模モデルのトレーニングを最適化し、ネットワークのパフォーマンスと安定性を向上させます。

AIStationは、リソース利用率を最大化し、トレーニングタスクのレイテンシとスループット要件を満たす、合理的なジョブ実行計画を策定できます。AIStationはスケジューリングシステムのパフォーマンスを最適化し、数千台のPODの超高速起動と環境準備を実現します。特に、AIStationは大規模RoCEロスレスネットワークにおける大規模モデルトレーニングにも対応した最適化を行っており、測定されたネットワークパフォーマンスの安定性は業界最高レベルに達しています。

AIStationは、PFC+ECNを用いてロスレスイーサネットネットワークを構築します。スイッチ側では、PFCがスイッチの入力層において、パケットキューの優先度に基づいてデータリンク層で輻輳制御を行います。ECNは、スイッチの出力層において、パケットヘッダー内の識別子ビットに基づいてネットワーク層で輻輳制御を行います。ホストコンテナ側の制御は、LinuxおよびOFEDドライバーを用いてKubernetes Podによって処理されます。このソリューションは柔軟なリソース利用を提供し、複数回のGPU割り当てと再利用を繰り返すことで、GPU分散における断片化の問題を解決します。

PFC+ECN に基づくロスレス イーサネット ネットワークの構築

大規模モデルの学習シナリオにおいて、AIStationはCalicoを介してメタデータ交換ネットワークを構築し、物理RoCEネットワークカードに基づくRDMA通信ネットワークを構築し、CNIおよび仮想化プラグインを介してIPアドレス割り当てを実装します。これにより、POD内の大規模モデル学習タスクはPXNなどのNCCLの通信最適化機能を最大限に活用し、効率的なネットワーク利用を実現します。

ある大手商業銀行は、AIStationプラットフォームの支援を受けて、RoCEネットワーク環境でDeepSpeed、Megatron-LM、大規模言語モデルなどの主流の大規模モデルトレーニングフレームワークのトレーニングを完了し、大規模モデルの実用化を迅速に実現しました。

内蔵の監視システムとインテリジェントな運用・保守モジュールにより、大規模モデルの安定したトレーニングを実現

大規模モデルを効率的に学習させるには、堅牢性と安定性が不可欠です。AIStationに搭載された包括的な監視システムとインテリジェントな運用保守モジュールは、チップ、ネットワークカード、通信機器の異常や故障を迅速に特定できます。同時に、学習タスクを一時停止してメンテナンスを行い、異常ノードをホットスタンバイのコンピューティングパワーから自動的かつ柔軟に置き換えます。最後に、正常なノードは迅速なチェックポイント読み取りに使用され、大規模モデルのブレークポイントから学習を自動的に継続できます。

大規模な事前トレーニングタスクにおける例外処理とブレークポイント継続プロセス

環境を自動的に構成し、大規模なモデルトレーニング タスクを迅速に構築します。

AIStationは、コンピューティング、ストレージ、ネットワークを含むトレーニング環境の設定を自動化するとともに、ユーザーが基本的なハイパーパラメータをカスタマイズできるようにします。わずか数ステップで、モデルの大規模な分散トレーニングを開始できます。さらに、AIStationは、Megatron-LM、DeepSpeed、HunggingFaceなどの多数のオープンソースソリューションを含む、主要な大規模モデルトレーニングフレームワークと統合されており、ほぼ瞬時の環境構築と実行を実現します。開発者は、大規模クラスター環境に分散タスクを容易に投入できます。分散タスクのGPUコンピューティングパワー要件に基づくスケジューリングシステムは、さまざまなアフィニティスケジューリング戦略を採用しており、分散トレーニングタスク構築の技術的障壁を大幅に低減します。

AIStationプラットフォームは、AI開発、アプリケーション展開、大規模モデルエンジニアリングにおいて貴重な経験と技術を蓄積し、多くの業界のクライアントのリソース、開発、展開におけるコスト削減と効率向上を支援しています。垂直産業においては、AIStationプラットフォームは、大手金融機関やバイオ医薬品サービス企業が集約型データを用いて大規模モデルを迅速にトレーニングおよび検証できるよう支援し、大規模モデル運用コストを大幅に削減しています。大手商業銀行のAIStation上に構築された並列コンピューティングクラスターは、その先進的な大規模分散トレーニング支援機能により、2022年のIDC「Future Digital Infrastructure Leader」賞を受賞しました。

InspurのAIStationは、大規模モデルにおける業界をリードする経験と専門知識を蓄積し、エンドツーエンドの最適化を実現することで、大規模モデル時代に適したAIコンピューティングパワースケジューリングプラットフォームとなっています。今後、AIStationは、ローコードで標準化された大規模モデル開発プロセスと、低コストで高効率な推論サービスの展開を通じて、お客様の大規模モデルの迅速な開発と展開を支援し、生成AIの開発を加速していきます。