|
大規模モデルは、現在の汎用人工知能産業の発展と革新の中核技術です。現在、中国では100を超える生成AIモデルがリリースされています。大規模モデルを中心とした生成AIの開発と応用シナリオに対応するため、Inspurは最近、大規模モデルインテリジェントコンピューティングソフトウェアスタックOG AI(Open GenAI Infra)-「Metabrain Genesis」をリリースし、大規模モデルビジネスにフルスタックのエンドツーエンドインテリジェントコンピューティングソフトウェアスタックを提供しています。これには、AIコンピューティングパワーシステム環境の展開、コンピューティングパワースケジューリング保証、モデル開発管理が含まれます。OGAIソフトウェアスタックは、インフラストラクチャ層のインテリジェントコンピューティングセンターOS製品、システム環境層のPODsys製品、スケジューリングプラットフォーム層のAIStation製品、モデルツール層のYLink製品、およびマルチモデル管理層のMModel製品に対応するL0からL4までの5層アーキテクチャで構成されています。 そのうち、L2層AIStationは、大規模モデル向けに開発されたAIコンピューティングパワースケジューリングプラットフォームです。AIStationは、大規模モデルのトレーニングにおけるリソースの使用とスケジューリング、トレーニングプロセスと保証、アルゴリズムとアプリケーションの管理を体系的に最適化し、中断後のトレーニング再開機能を備え、長期にわたる継続的なトレーニングを保証します。AIStationは、Inspur Informationの「Source」大規模モデルトレーニングのコンピューティング効率44.8%をサポートしています。ある大手商業銀行は、AIStationをベースとした大規模並列コンピューティングクラスターを構築し、大規模モデルトレーニングのコンピューティングポテンシャルを最大限発揮し、2022年のIDC「Future Digital Infrastructure Leader」賞を受賞しました。 この記事では、大規模モデルのトレーニングの課題、AIStation が大規模モデルのトレーニングの効率をどのように向上させるか、そしてその結果について重点的に説明します。 I. 大規模モデルの訓練は大きな課題に直面 1. 大規模モデルのトレーニングに計算リソースを活用するには膨大な計算コストと課題があります。 大規模モデルの学習における最大の課題は、膨大なデータ量と計算量であり、その結果、膨大な計算オーバーヘッドが発生します。例えば、GPT-3は1万基のGPUで学習され、「Source 1.0」モデルはAIStationプラットフォームを用いて1,800億トークンで2,128基のGPUで学習されました。700億パラメータのモデルを1兆トークンで学習させるには、数百万ドルの費用がかかります。しかし、コンピューティングプラットフォームの性能は、通常、コンピューティングパワーに比例して向上するのではなく、むしろ低下します。したがって、大規模モデルの学習には、プラットフォームの有効性を最大限に高めるための効率的なコンピューティングパワースケジューリングが必要です。これは、アルゴリズムとフレームワークの最適化だけでなく、コンピューティングクラスターのハードウェア特性と計算負荷に基づいて最適なコンピューティングパワースケジューリングを実現する効率的なコンピューティングパワースケジューリングプラットフォームにも依存しており、それによって全体的なコンピューティングパワーの利用率と学習効率が向上します。 2. マルチネットワーク互換性適応のメンテナンスに時間がかかり複雑 大規模モデルのトレーニング中は、数万台のGPUがノード内およびノード間で継続的に通信します。最適なトレーニング結果を得るために、通常、単一のGPUサーバーは、InfiniBandやRoCEなどの複数の高性能ネットワークインターフェイスカード(NIC)を使用して、ノード間の高スループット、低遅延通信を提供します。しかし、さまざまなネットワークソリューションにはそれぞれ長所と短所があります。InfiniBandは、その優れたパフォーマンスにより、大規模モデルのトレーニングに適した選択肢として広く認識されていますが、高価でもあります。RoCEは安価ですが、大規模ネットワーク環境でのパフォーマンスと安定性はInfiniBandに劣ります。したがって、大規模モデルのトレーニングの通信要件を満たすには、クラスターネットワーク内で適切な通信デバイスとネットワーク条件を調査して設計する必要があります。 3. 不安定な大規模モデルの学習と障壁の高いシステムレベルの最適化 大規模モデルのトレーニングは従来の分散トレーニングよりも複雑で、トレーニングサイクルは数か月に及びます。クラスターの計算効率の低さや頻繁かつ複雑な障害は、トレーニング中断後の回復の遅延につながり、大規模モデルのトレーニング成功率を低下させ、トレーニングコストを高く維持する可能性があります。そのため、大規模モデルでは、トレーニングの安定性、障害検出、フォールトトレランスに対する要求が高くなります。同時に、大規模モデルへの分散タスクの送信を簡素化し、タスクリソースのインテリジェントかつ自動化されたマッチングを実現し、トレーニングの堅牢性を確保することも、トレーニング効率を向上させる上で不可欠です。 GPT3と同規模のモデルであるOpen Pre-trained Transformer (OPT)-175Bを学習させる際にMetaが直面した大きな技術的課題は、学習の不安定性でした。下図に示すように、GPUの障害やGPUパフォーマンスの異常による予期せぬ中断などにより、学習が停止するポイントが多数発生しました。学習の安定性の向上と効果的なブレークポイントからの再開は、大規模モデルの学習において対処すべき喫緊の課題です。 図 1. OPT-175B トレーニング中の予期しない中断 (横軸はトレーニング時間、縦軸はパープレキシティ PPL を表します。出典: https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/chronicles/56_percent_update.md#infrastructure-stability) まとめると、大規模分散環境で大規模モデルを学習するには、学習サイクルの短縮とコスト削減のために、計算能力のスケジューリング、ネットワーク通信、学習の安定性など、様々な課題に対処する必要があります。そのためには、クラスター内のすべてのリソースを柔軟かつ最大限に活用し、様々な手段を用いてデータ利用と通信を最適化するだけでなく、大規模コンピューティングクラスターにおける異常発生時に迅速に対応することも不可欠です。 II. AIStationの簡素化・高速化された大規模モデルトレーニングプロセス InspurのAIStationは、大規模モデルの学習ニーズを満たすために体系的に最適化されたプラットフォームとソフトウェアスタックを提供します。AIStationプラットフォームは、リソースの使用とスケジュール、学習プロセスとアシュアランス、アルゴリズムとアプリケーションの観点から体系的な最適化を実施しており、大規模モデルの学習におけるエンドツーエンドの最適化と高速化を実現します。 図 2. AIStation は、大規模モデル操作に対する包括的なサポートと保証を提供します。 ミリ秒レベルのスケジューリングにより、膨大な計算能力を効率的に使用でき、計算能力の利用率が低いという問題を解決します。 大規模モデル学習の実践において、AIStationはクラウドネイティブスケジューリングシステムのパフォーマンスに最適化されており、数千のPODの迅速な起動と環境準備を可能にします。下表に示すように、ネイティブコミュニティバージョンと比較して、AIStationスケジューラは大規模PODタスクのスケジューリングパフォーマンスを大幅に向上させ、特に大規模モデル学習におけるスケジューリングとコンピューティングリソースの有効活用を確実にします。 表1 大規模PODスケジューリングタスクのパフォーマンス比較 さらに、AIStationプラットフォームは大規模モデルに特化した開発モードをサポートし、小規模リソーススケジューリング、大規模リソーススケジューリング、高性能スケジューリングなど、規模に応じた多様なリソース利用方法を提供します。コンピューティングスケジューラは、クラスターコンピューティングリソースを動的かつインテリジェントに管理・割り当て、合理的なジョブ実行計画を策定することで、リソース利用率を最大化し、さまざまなトレーニングタスクのレイテンシとスループット要件を満たし、効率的で安定したジョブ運用を確保し、コンピューティングプラットフォームの高い利用率、強力なスケーラビリティ、そして高いフォールトトレランスを実現します。 AIStation は、さまざまな効率的なリソース管理およびスケジューリング戦略を通じて、ミリ秒レベルのスケジューリングを実現し、全体的なリソース使用率を 70% 以上に高め、お客様がコンピューティング クラスターのコンピューティング能力をより有効に活用し、コンピューティング能力の価値を十分に実現できるように支援します。 2. 非常に効率的なネットワーク リソース管理により、マルチ GPU アクセラレーションが 90% に達し、トレーニング プロセスが大幅に加速されます。 AIStationは、独立した高性能コンピューティングおよびストレージネットワークを定義し、スイッチレベルのリソーススケジューリングをサポートしてスイッチ間のトラフィックを削減し、ネットワーク障害の自動識別と処理機能を備えています。大規模モデルのトレーニング中に高い通信要件が求められるシナリオでは、AIStationはクラスタートポロジー認識を提供し、コンテナネットワークがクラスターの物理ネットワークと一貫性を保つようにすることで、コンテナ相互接続パフォーマンスを保証し、トレーニングの通信要件を満たします。分散通信最適化と、クラスターのInfiniBandまたはRoCE高性能ネットワーク、および特別に最適化された通信トポロジーを組み合わせることで、AIStationはキロカードクラスターテストでマルチGPUの90%高速化を実現しています。特に、AIStationは大規模モデルの大規模RoCEロスレスネットワークトレーニングにも最適化されており、測定されたネットワークパフォーマンスの安定性は業界最高レベルに達しています。 ある大手商業銀行は、AIStation プラットフォームの支援を受けて、DeepSpeed、Megatron-LM、大規模言語モデルなどの主流の大規模モデルフレームワークのトレーニングを RoCE ネットワーク環境で実装し、大規模モデルの実用化を迅速に実現しました。 3. 大規模なトレーニング システム レベルの最適化により、障害処理時間が 90% 短縮され、実験コストが最小限に抑えられます。 大規模モデルタスクの投入には、多くの場合、大規模な環境設定、依存ライブラリの適応、ハイパーパラメータの調整が必要になります。AIStationは、コンピューティング、ストレージ、ネットワーク環境を自動設定するだけでなく、いくつかの基本的なハイパーパラメータをカスタマイズ可能な形で変更できるため、ユーザーの利便性を高めます。AIStationを使用すると、わずか数ステップで大規模モデルの分散学習を開始でき、現在、Megatron-LMやDeepSpeedといった多くの大規模モデル学習フレームワークやオープンソースソリューションをサポートしています。 図 3. AIStation への Megatron-LM の迅速な導入により、トレーニングにエンドツーエンドのサポートを提供します。 AIStationは、大規模なトレーニングクラスター上で自社開発のデータキャッシングシステムを活用し、トレーニング前およびトレーニング中のデータ取得速度を向上させ、ストレージシステムとネットワークへの依存を大幅に低減します。最適化されたスケジューリング戦略と組み合わせることで、ハードウェア性能を最大限に活用しながら、ストレージシステムを直接使用する場合と比較して、モデルのトレーニング効率が200%~300%向上します。 大規模モデルを効率的に学習させるには、堅牢性と安定性が不可欠です。AIStationは、フォールトトレランスを自動的に処理するか、リソース障害などのクラスターの緊急事態に対処するために柔軟なスケーリング戦略を実行し、学習中断後の最速の復旧を保証します。これにより、長期的な学習を必要とする大規模モデルに信頼性の高い環境を提供し、異常な障害への対応にかかる平均時間を90%以上短縮します。 図 4. 大規模な事前トレーニング タスクの異常処理とブレークポイント継続プロセス。 まとめると、大規模分散コンピューティング向けに、AIStationはトレーニングライフサイクル全体をカバーする分散トレーニング適応システムを組み込んでおり、大規模モデルトレーニングの様々なニーズに対応しています。リソース使用状況ビュー、コンピューティングおよびネットワークスケジューリング戦略、分散トレーニングの加速、トレーニング監視、そしてトレーニングのフォールトトレランスと自己修復機能を提供します。トレーニングを加速しながら、障害を自動的に特定し、タスクを回復することで、トレーニングの安定性と効率性を確保します。AIStationのインテリジェントなフォールトトレランスメカニズムによって保護されたある銀行のお客様は、極めて厳格なビジネス展開テストにおいて迅速な障害診断と復旧を実現し、ビジネス展開時間を大幅に短縮することができました。 III. AIStationは産業界の大規模モデル開発の効率向上に貢献 AIStationプラットフォームは、AI開発、アプリケーション展開、大規模モデルエンジニアリングにおいて貴重な経験と技術を蓄積し、多くの業界のクライアントのリソース、開発、展開におけるコスト削減と効率向上を支援しています。垂直産業においては、AIStationプラットフォームは、大手金融機関やバイオ医薬品サービス企業が集約型データを用いて大規模モデルを迅速にトレーニングおよび検証できるよう支援し、大規模モデル運用コストを大幅に削減しています。大手商業銀行のAIStation上に構築された並列コンピューティングクラスターは、その先進的な大規模分散トレーニング支援機能により、2022年のIDC「Future Digital Infrastructure Leader」賞を受賞しました。 InspurのAIStationは、大規模モデルにおける業界をリードする経験と専門知識を蓄積し、エンドツーエンドの最適化を実現することで、大規模モデル時代により適したAIプラットフォームとなっています。今後、AIStationはInspurのOGAIソフトウェアスタックと共に進化し、ローコードで標準化された大規模モデル開発プロセスと低コスト・高効率な推論サービス展開を通じて、お客様の大規模モデルの迅速な開発・展開と競争優位性の獲得をさらに支援します。 |