HUOXIU

スピーチトランスクリプト: ビッグデータモデルの時代において、どのような AI コンピューティング パワー システムが必要なのでしょうか?

現在、「百機種合戦」によってコンピューティングパワーの需要が爆発的に増加し、AIチップ業界にも大きなチャンスが訪れています。「革新的なアーキテクチャ+オープンソースエコシステム」は、多様なAIコンピューティングパワー製品の隆盛を促しています。新たな産業チャンスに直面し、AIコンピューティングパワー産業チェーンは、上流と下流の連携を通じてこれらのチャンスを迅速に捉える必要があります。

最近、InspurのAI & HPC製品ライン担当シニアプロダクトマネージャーであるStephen Zhang氏が、Open Computing China Summitにおいて、AIGC時代におけるコンピューティングパワーの需要動向とオープンアクセラレーテッドコンピューティングの開発パスに関する洞察を共有しました。彼は、オープンアクセラレーテッドコンピューティングの協業的なエコシステムが、多様なAIコンピューティングパワー製品の革新的な開発を効果的に促進し、AIGC時代のコンピューティングパワーの課題に対処するための有用なソリューションを提供すると指摘しました。

スピーチの要点は次のとおりです。
大規模モデルは、AI コンピューティング パフォーマンス、相互接続帯域幅、およびスケーラビリティに対する爆発的な需要をもたらします。
 大規模ディープニューラルネットワークのトレーニング用にオープンアクセラレーションコンピューティングテクノロジーが開発されました。
アプリケーション指向のコンピューティング インフラストラクチャ アーキテクチャ設計とコンピューティング能力およびアルゴリズムの共同設計により、より効率的な大規模モデルのトレーニングを実現できます。
オープンアクセラレーテッドコンピューティングは、パフォーマンス、スケーラビリティ、エネルギー効率、エコシステムの互換性の面で実りある成果を積み重ねてきました。

以下はスピーチの原文です。

大規模モデル時代の計算能力要件と動向

ChatGPTのリリース以来、生成型人工知能技術への関心が著しく高まっています。ChatGPTの普及に伴い、参加者が増加し、モデル数とそのパラメータが急速に増加しました。不完全な統計によると、中国における大規模モデルの数は110を超えており、AIコンピューティング能力に対する需要が劇的に増加しています。

大規模モデルの発展によってもたらされる深刻なコンピューティングパワーの課題に対処するため、広範な需要分析とトレンド評価を実施しました。AIサーバーのコンピューティングパワーと消費電力の推移を見ると、大規模モデルのコンピューティングパワー不足問題を解決する最も直接的な方法は、個々のマシンのコンピューティングパワーを向上させることです。2016年から現在までに、個々のAIサーバーのコンピューティングパワーは100倍近く増加し、消費電力は4キロワットから12キロワットに増加しました。次世代AIサーバーの消費電力は18キロワット、さらには20キロワットを超えるまで増加し続けます。AIサーバーのシステムアーキテクチャ、電源、放熱方法、そしてデータセンターインフラストラクチャの構築モデルは、将来の高出力AIサーバーの展開要件を満たすには不十分です。

第二に、大規模モデルのパラメータ数の増加はGPUの需要も増加させ、より大きなビデオメモリ容量を必要とします。2021年には、数千億のパラメータを持つ大規模モデルには3,000GBのビデオメモリが必要でした。これは、重みパラメータ、勾配データ、最適化値、活性化値などのモデルを格納するために、それぞれ80GBのメモリを搭載したGPUを40台近く必要とすることを意味します。今日では、多くの大規模モデルは1兆を超えるパラメータを持ち、30,000GBのビデオメモリを必要とし、それぞれ80GBのメモリを搭載したGPUを400台近く必要とすることになります。つまり、このような大規模モデルをトレーニングするには、さらに大規模なコンピューティングプラットフォームが必要になります。

大規模プラットフォームでは、カード間および異なるノード間の通信量の増加という新たな問題が生じます。大規模モデルのトレーニングには複数の並列戦略を統合する必要があり、カード間P2P相互接続とノード間相互接続の帯域幅に対する要求が高まります。

2,457億個のパラメータを持つ大規模モデル「Source 1.0」のトレーニングにおけるエンジニアリングの実践を例に挙げると、「Source 1.0」のトレーニングには1,800億トークンが使用され、7.4TBのGPUメモリを必要とします。トレーニングプロセスは、テンソル並列処理、パイプライン並列処理、データ並列処理の3つの戦略を統合しています。単一ノードのテンソル並列通信は毎秒82.4回に達し、ノード内通信帯域幅の最小要件は194GB/sです。パイプライン並列処理はコンピューティングノード内で実装され、ノード間通信帯域幅は26.8GB/sに達します。パイプライン並列処理の帯域幅要件を満たすには、少なくとも300Gbpsの通信帯域幅が必要です。「Source 1.0」のトレーニング中、ノード間通信には実際に200Gbpsのネットワークカードが2枚使用されています。データ並列通信は周波数は低いですがデータ量が多く、少なくとも 8.8GB/秒の帯域幅が必要ですが、これは単一マシンの 400Gbps 帯域幅で対応できます。

モデルパラメータの数がさらに増加し​​、GPU の計算能力が飛躍的に向上するにつれて、将来的には、より大規模なモデルのトレーニング要件を満たすために、より高い相互接続帯域幅が必要になります。

Open Accelerated Computing は、超大規模なディープ ニューラル ネットワーク向けに設計されています。

大規模AIGCモデルの学習用コンピューティングシステムには、高いコンピューティング能力、高い相互接続性、そして強力なスケーラビリティという3つの主要な特性が必要です。従来のPCIe CEMアクセラレータカードではこれらの3つの要件を満たすことは困難であるため、ますます多くのチップメーカーがPCIe以外のアクセラレータカードの開発に取り組んでいます。

2019年、Open Computing Organization(OCP)は、大規模モデルのトレーニング向けに特別に設計された高速コンピューティングシステムアーキテクチャを発表しました。その中核はUBBおよびOAM標準に基づいており、高いコンピューティング能力を主な特徴としています。カード型のフォームファクタを持つMezzアクセラレータは、優れた放熱性と相互接続性を備えており、より高コンピューティング能力のチップにも対応可能です。さらに、強力なクロスノードスケーラビリティを誇り、数千、あるいは数万のGPUを搭載したプラットフォームにも容易に拡張でき、大規模モデルのトレーニングをサポートします。このアーキテクチャは、超大規模ディープニューラルネットワークのトレーニングに最適です。

しかし、OAM業界の実装プロセスにおいて、多くのメーカーのアクセラレータカードは依然として、ハードウェアインターフェースの一貫性、相互接続プロトコルの一貫性、そしてソフトウェアエコシステムの互換性の欠如といった問題を抱えています。これにより、新しいAIアクセラレータカードシステムへの適応サイクルの長期化とカスタマイズコストの高騰という課題が生じ、コンピューティングパワーの需給ギャップが拡大しています。業界は、大規模モデルのトレーニングに対応するため、よりオープンなコンピューティングパワープラットフォームと、より多様なコンピューティングパワーのサポートを緊急に必要としています。
これに対応して、Inspur は技術に関する予備調査や業界エコシステムへの貢献など、多大な作業に取り組んできました。

Inspur Informationは2019年以来、OAM規格の開発を主導し、初のオープンアクセラレーションボードUBBをリリースするとともに、世界初のオープンアクセラレーションリファレンスシステムMX1を開発しました。また、大手チップメーカーと連携し、OAMベースのアクセラレータカードの採用を完了し、この技術的アプローチの実現可能性を実証しました。OAMオープンアクセラレーション仕様に準拠したシステムの産業化を促進するため、InspurはCPUとOAMアクセラレータカードを19インチの単一筐体に統合した初の「ALL IN ONE」OAMサーバー製品を開発しました。これにより、データセンターレベルでの迅速な導入が可能になり、多数の顧客のインテリジェントコンピューティングセンターへの適用が可能になりました。

それ以来、OAMチップのコンピューティング能力と消費電力は継続的に向上し、データセンターでは環境に優しくエネルギー効率の高いソリューションがますます求められるようになりました。これに対応して、当社は8つのOAMアクセラレータと2つの高性能CPUを液冷でき、液冷カバー率が90%を超える初の液冷OAMサーバーを開発しました。この製品をベースに構築された液冷OAMインテリジェントコンピューティングセンターソリューションは、1000カロリーのプラットフォームで安定稼働した場合、PUE値が1.1未満を達成しています。一方、Inspurが新たにリリースした次世代OAMサーバーNF5698G7は、フルPCIe Gen5リンクをベースとし、H2D相互接続能力が4倍に向上し、次世代OAM開発のためのより高度な展開プラットフォームを提供します。

プラットフォーム アーキテクチャの設計とコンピューティング パワー アルゴリズムの共同設計を通じて、エネルギー消費の問題を解決します。

コンピューティングプラットフォームを提供するだけでは不十分です。データセンターは現在、膨大なエネルギー消費という課題に直面しており、特に大規模モデルのトレーニングに使用するAIサーバーでは、1台のマシンの消費電力が6~7キロワットを優に超えることがあります。

大規模モデルのトレーニングに必要な全体的な消費電力 (E) は、次の式で簡単に計算できます。分子は、モデル パラメータの数の 6 倍とトレーニング中に使用されるトークンの数を使用して、大規模モデルのトレーニングに必要な計算能力相当を表します。分母は、アクセラレータ カードの数と単一のアクセラレータ カードの計算パフォーマンスを使用して、インテリジェント コンピューティング インフラストラクチャが提供できる全体的な計算能力パフォーマンスを表します。2 つを割った結果は、大規模モデルのトレーニングに必要な時間を表します。これに Ecluster メトリック (大規模モデル トレーニング プラットフォームの 1 日の消費電力) を掛けると、全体的な消費電力が得られます。したがって、選択したモデルと固定の数および規模のカードが与えられた場合、大規模モデルのトレーニングに必要な全体的な消費電力を最適化するには、単一のカードの計算能力を向上させるか、単一のプラットフォームの消費電力を削減するしかありません。

これら 2 つのパラメータの最適化について、さらに研究を行いました。2 つの表は、異なるネットワーク アーキテクチャ設計における大規模モデル トレーニングのプラットフォーム消費電力と全体消費電力の比較を示しています。単一マシン 2 NIC ネットワーク スキームと単一マシン 8 NIC ネットワーク スキームを例にとると、単一マシンの消費電力に対する NIC 数の違いによる影響は大きくありませんが、コンピューティング プラットフォーム全体では、NIC 数の増加に伴ってスイッチ数も増加し、総消費電力に大きな差が生じます。8 NIC スキームでは総消費電力が 2,000 キロワットを超える可能性がありますが、2 NIC スキームでは 1,600 キロワットを超えるにとどまり、消費電力を 18% 節約できます。

そのため、大規模モデルの学習に必要なネットワーク帯域幅を綿密に計算し、実際のアプリケーションのニーズを満たすことで、パフォーマンスに影響を与えることなく、総消費電力を大幅に最適化できます。「Source」大規模モデルの学習プロセスでは、わずか2枚の200G IBカードで、2,457億個のパラメータを持つモデルを学習しました。これは、学習プラットフォームの総消費電力を最適化するために私たちが発見した初めての技術的アプローチです。

第二に、シングルカードコンピューティングパワーの利用率を向上させ、効率化と省エネルギー化を実現することも非常に重要な課題です。当社のテストでは、アルゴリズムとコンピューティングアーキテクチャを共同設計する手法を採用し、コンピューティングインフラストラクチャの技術的特性に基づいてモデルのパラメータ構造とトレーニング戦略を深く最適化することで、同規模のモデルのトレーニング時間を短縮できることが示されています。GPT-3モデルのトレーニングを例にとると、モデルのトレーニング時間は15日から12日に最適化され、総消費電力は33%削減されます。

上記の 2 つの点は、アプリケーション指向のアーキテクチャ設計と、コンピューティング能力とアルゴリズムの協調設計により、より効率的な大規模モデルトレーニングを実現し、最終的には省エネと炭素削減の目標達成を加速できることを示しています。

大規模モデルが効率的に計算能力を解放できるようにするための、グリーンでオープンな加速プラットフォーム

Inspur Information は、前述のオープン コンピューティングと高効率コンピューティングのテクノロジー、製品、方法におけるイノベーションと研究を基に、生成 AI 向けのグリーンでオープンかつ加速化されたインテリジェント コンピューティング プラットフォームを積極的に構築しています。

昨年、当社はパートナー企業と共同で、液冷式オープンアクセラレーション・インテリジェントコンピューティングセンターソリューションをリリースしました。第一に、非常に高いコンピューティング性能を備えています。第二に、1,000コアレベルの大規模拡張を実現し、1,000億を超える規模のモデルのトレーニングをサポートします。同時に、高度な液冷技術により、プラットフォーム全体のPUEを大幅に最適化します。

一方、Inspurは、フルスタックのオープンアクセラレーテッドインテリジェントコンピューティング機能を積極的に構築しています。基盤となるAIコンピューティングプラットフォームの提供に加え、上位層にはAIリソースプラットフォームがあり、リソース管理層の統一インターフェースを通じて、30種類以上の多様なコンピューティングチップの統一的なスケジューリングと管理を可能にします。その上にはAIアルゴリズムプラットフォームがあり、オープンソースのディープラーニングアルゴリズムフレームワーク、大規模モデル、オープンデータセットを提供しています。その上にはコンピューティングパワーサービスがあり、コンピューティングパワー、モデルデータ、配信、運用保守などのさまざまなサービスモデルが含まれています。その最上位には、4,000社を超えるパートナーを擁するYuanBrainエコシステムがあります。Inspurとそのエコシステムパートナーは、オープンアクセラレーテッドコンピューティングソリューションを共同で設計し、産業界での実装に成功しています。

オープンアクセラレーション仕様に基づくAIコンピューティングプラットフォームは、おなじみのGPTシリーズ、LLaMA、Chat GLM、「Source」など、業界で主流の20以上の大型モデルに適応しており、複数の普及モデルへの適応もサポートしています。

「100種類のチップをサポートし、1000種類のモデルを実現」することで、多様なコンピューティングパワーの導入を加速

AIGC技術と産業は急速に発展し、業界ではオープンアクセラレーションコンピューティングに関する関連仕様が確立されているものの、産業実装には依然としていくつかの課題が存在します。例えば、オープンコンピューティングシステムは高度にカスタマイズされており、仕様はシステムの適応、管理、多様なコンピューティングチップのスケジューリング、そしてディープラーニング環境の展開など、すべての領域を網羅しているわけではありません。

OAM仕様を基盤として、「オープンアクセラレーション仕様AIサーバー設計ガイドライン」が最近リリースされました。AIGC業界の現状における顧客の課題に対応するため、アプリケーション指向、多様化とオープン化、環境に優しく効率的、そして包括的な設計といったオープンアクセラレーションサーバー設計の原則を定義しています。また、ノード層からプラットフォーム層に至る多次元的な協調設計ソリューションを含む、サーバー設計手法を深化・洗練させています。これらのソリューションは、適応と開発の課題を十分に考慮し、ノードからプラットフォームに至るまでの設計パラメータをさらに洗練させ、多様なコンピューティングチップの開発、適応、展開の効率性を向上させることを最終目標としています。

AIGCトレーニング用に設計されたサーバーは、多数の高出力チップを搭載し、高い相互接続帯域幅を備えているため、安定性の問題が深刻です。システムの安定性を確保し、ブレークポイントを削減し、大規模モデルのトレーニング効率への影響を最小限に抑えるには、より包括的なテストが必要です。そのため、このガイドでは、構造、放熱、ストレステスト、安定性、ソフトウェア互換性といった側面を網羅した、包括的かつ体系的なテストガイダンスを提供します。

最後に、多様化するコンピューティングパワーを産業界にうまく応用するには、チップ性能、相互接続性能、モデル性能、仮想化性能など、パフォーマンスが最も重要な要素となります。「ガイドライン」は、これまでのベンチマークチューニングの経験に基づき、パートナーが最新のチップ製品をアプリケーションに迅速かつ効果的に展開し、コンピューティングパワーの可用性を向上させるためのパフォーマンス評価およびチューニングの標準と方法を提案します。最終的な目標は、AIコンピューティングパワー業界全体のイノベーションと発展を促進し、業界チェーンの上流および下流のパートナーと協力してオープンアクセラレーションエコシステム全体を推進し、AIGC時代のコンピューティングパワーの課題に共同で取り組むことです。

皆様ありがとうございました!