HUOXIU

銀行のインテリジェント コンピューティング センターに Inspur AIStation を導入したことで、モデルのトレーニング効率が 7 倍向上しました。

金融のデジタル変革が加速するにつれ、銀行はより高品質で迅速な金融サービスを提供する必要性が高まり、インテリジェントコンピューティングセンターの能力に対する要求と課題はますます高まっています。多様なインテリジェントコンピューティングシナリオには、多様なコンピューティングパワー供給が必要です。例えば、大規模なモデル、データ、アプリケーションのスケールには膨大なコンピューティングパワーが必要であり、また、さまざまな規模の運用には柔軟で洗練されたコンピューティングパワー管理が必要です。コンピューティングクラスターの継続的な増加と、異種コンピューティングリソースと高性能ネットワークの急速な発展に伴い、さまざまなAIワークロードのネットワーク、ストレージ、異種コンピューティングパワーのニーズをどのように満たすかは、銀行が直面する重要な課題となっています。

Inspur Informationは、大手国有銀行との協業において、同銀行の現在のインテリジェントコンピューティングセンターが主に1,000近くのアプリケーションシナリオにわたるオンライン推論サービスをサポートしているものの、大規模モデルトレーニングのための大規模分散コンピューティングインフラストラクチャに必要なリソース管理および開発プラットフォームが不足していることを発見しました。このため、特定の業務オペレーションにおいてモデルの反復サイクルが長期化しています。さらに、各事業部門が分散しているため、効果的な統合コンピューティングパワー管理プラットフォームが不足しています。

InspurのAIStationインテリジェント業務生産イノベーションプラットフォームは、継続的な技術革新と実践を通じて、大規模GPU並列コンピューティング最適化機能とAIコンピューティングパワープールのインテリジェントスケジューリングを組み合わせました。これにより、一般的なAIモデルのトレーニングサイクルが1週間から1営業日に短縮され、銀行におけるAI業務シナリオの迅速な展開を支援しています。既に大手国有銀行に導入されています。本稿では、Inspurが銀行のインテリジェントコンピューティングセンターにおいて、特定の業務シナリオにおけるAI業務生産イノベーションプラットフォームの迅速な構築を支援し、高性能、高信頼性、高拡張性を実現する仕組みを説明します。

完全なライフサイクル管理機能を備えた AIStation プラットフォームは、銀行業務のイノベーションを促進します。

包括的なタスクライフサイクル管理により、銀行のインテリジェントコンピューティングセンターをより適切にサポートし、開発者がコンピューティング能力を迅速に活用できるようにし、管理者がリソースを管理するのを支援し、迅速なビジネスイノベーションを可能にします。

AIStationプラットフォームは、ジョブのライフサイクル管理を包括的に提供し、開発者がジョブのステータスを追跡し、トレーニングの最適化に必要な情報を取得し、プラットフォームのリソース使用率を分析し、リソース使用率の改善計画を策定することを可能にします。また、包括的かつ効率的な異機種コンピューティングリソース管理を提供し、データアクセラレーション、ネットワーク最適化、業務システムとのシームレスな統合といった側面から銀行業務を確実なものにします。これにより、開発者にとって便利でシームレスな開発モデル、管理者にとって効率的で制御可能な管理モデルを実現します。

便利で効率的な異種コンピューティング管理により、コンピューティング能力の価値を最大限に実現します。

現在、異種AIチップは急速に発展しており、ますます多くの銀行のインテリジェントコンピューティングセンターが従来のアーキテクチャから異種コンピューティングパワーアーキテクチャに移行しています。しかし、異種チップの多様性、複雑な管理、高い開発ハードルといった課題に直面しています。

異種コンピューティングリソースへのアクセスと管理に対応するため、AIStationプラットフォームはアクセラレータカード管理モデルを確立しました。このモデルにより、ビジネスコードを変更することなく、異種コンピューティングリソースへのアクセス、クォータ管理、使用のための設定可能なプロセスが実現され、異種アクセラレータカードの種類とコンピューティングパワーを識別できます。また、レポート、統計、監視/アラーム機能も提供しており、プラットフォーム管理者は異種コンピューティングリソースの健全性状態と使用状況を把握できます。異種コンピューティングリソースへのアクセスと管理は、設定によって実現できます。現在、AIStationは、市場で主流となっている20種類以上の異なるアーキテクチャのアクセラレータカードと互換性があり、優れた適応性と汎用性を発揮し、さまざまなビジネスシナリオにおける銀行インテリジェントコンピューティングセンターのコンピューティングパワー要件を完全に満たしています。

イメージの配信が高速化され、分散タスクの環境準備時間が短縮されます。

通常、学習タスクにリソースを割り当てた後、コンピューティングクラスタ内のノードは環境の準備(ジョブイメージのダウンロードなど)を行います。この時点では、アクセラレータカードのコンピューティングパワーは完全にアイドル状態になります。これは特に、複数のコンピューティングノードが同時にイメージをダウンロードする分散ジョブに当てはまり、イメージリポジトリに大きな負荷がかかり、ダウンロード速度の低下や失敗につながり、コンピューティングリソースが著しく浪費されます。

AIStationは、画像P2P配信アクセラレーションを提供し、追加のハードウェアを必要とせずに、より高速な画像配信を実現します。画像リポジトリは1回のダウンロードに必要な帯域幅を提供し、画像アクセラレーションシステムはコンピュートノードに画像データをキャッシュし、他のコンピュートノードへの画像ダウンロードのためのデータサービスを提供します。また、ノード数に比例して画像ネットワーク帯域幅全体を提供するため、分散タスクの環境準備時間を効果的に短縮できます。実環境でのテストでは、処理時間を従来の半分に短縮できることが実証されています。

さらに、AIStationはノードデータキャッシング機能を備えており、ストレージシステムのワンタイム読み取りを可能にし、ローカルの高速ディスクを利用することでネットワーク転送の遅延を排除します。これにより、ストレージIOPSが大幅に向上し、トレーニング効率が向上し、一般的なAIモデルのトレーニングサイクルが1週間から1営業日に短縮されます。AIStationは、キャッシングメカニズムに加えてキャッシュライフサイクル管理も提供しており、ディスク使用量が少ないときに可能な限りデータをキャッシュすると同時に、データアフィニティスケジューリングも実装しています。

大規模分散タスクのもう一つの大きな課題は、異常や障害への対応です。分散タスクは多くのリソースを使用するため、ハードウェアやネットワークの障害の影響を受けやすく、トレーニングの中断につながる可能性があります。一般的に、分散タスクにおける異常への対応には手動介入が必要であり、タイムリーさを保証できず、タスク障害の具体的な原因とその解決策を特定するにはある程度の人間の経験が必要となり、アルゴリズムエンジニアへの要求は高くなります。AIStationプラットフォームは、障害検出、識別、タスクのフォールトトレランスのための包括的なメカニズムを提供します。障害が発生すると、障害の種類を識別できます。再起動によって回復できる障害(アクセラレータカードの障害、ネットワーク障害など)の場合、プラットフォームは自動的にトレーニングタスクの再実装をトリガーします。自動化されたプロセスを通じて、AIStationは障害処理の効率を向上させ、クラスターマシンの時間リソースを節約し、リソース使用率を高めます。

最先端のネットワーク ソリューションにより、GPU リソースの柔軟なスケジュール設定が可能になります。

現在、銀行のインテリジェントコンピューティングセンター向けのネットワーク構築ソリューションは数多く存在します。中でも、RoCEネットワークはイーサネットプロトコルに基づくRDMAを実装しており、既存のデータセンターのネットワーク機器を再利用できるため、クラスタ構築コストを削減できます。RoCEベースのネットワークソリューションでは、物理ホストGPUの共有利用を実現し、トレーニングタスクに必要なGPU数に対応できるよう、GPUリソ​​ースの協調スケジューリングを十分に考慮する必要があります。同時に、ノード間のGPUのRDMA通信ニーズを満たすため、RDMAネットワークカードをコンテナに透過的に転送する必要があります。しかし、現状では効果的なソリューションは存在しません。

Inspurは、RoCEネットワークインターフェースカードの仮想化とネットワーク相互運用性管理を組み合わせたソリューションを提案しました。これにより、コンテナクラウドプラットフォーム上でRoCEネットワークへの迅速なアクセスと適応が可能になり、ネットワーク適応の難易度も低減しました。このソリューションは、大手国有銀行の実運用環境に導入され、GPUリソ​​ースの断片化という顧客の課題を解決し、RoCEネットワーク下でGPUリソ​​ースの柔軟なスケジューリングと割り当てを可能にしました。実際の結果は顧客の期待を上回るものでした。

RoCE NIC仮想化:AIトレーニングネットワークでは、MacVLAN、Calico、Flannel、SR-IOVなど、ネットワークデバイスを共有するための様々なソリューションが存在します。RoCEv2のRDMA通信実装におけるメカニズムを考慮し、SR-IOVテクノロジーを選択しました。SR-IOVにより、ホストの物理RoCEカード(PF)は複数のRoCE NIC(VF)に仮想化され、1対多のシナリオ要件を実現します。

ネットワーク輻輳制御:AIプラットフォーム上で学習タスクを実行する場合、任意のGPUノードが他のGPUノードと通信するため、必然的に「多対1」のネットワークトラフィックシナリオが発生します。RDMAネットワークで高帯域幅と低レイテンシを確保するには、輻輳の問題に対処し、ロスレス伝送を実現する必要があります。AIStationは、スイッチ、ホスト、コンテナレベルでフロー制御管理設定を提供し、ネットワーク輻輳による学習パフォーマンスの低下を防ぎます。

ネットワーク相互運用性管理:現在、ほとんどのAIトレーニングタスクは、トレーニングの高速化のためにNCCLに依存しています。しかし、NCCLベースのソリューションは、ローカルGPUとローカルRDMAネットワークカードの情報のみに焦点を当てており、リモートRDMAネットワークカードとの通信は考慮されていません。RoCEv2はUDPプロトコルに基づくRDMA通信を実装しており、送信側と受信側の両方のRoCEネットワークカードが正しく通信する必要があります。そうでなければ、異なるノード上のGPUはRoCEv2を使用してRDMA通信を実現できません。AIStationは、独自開発のネットワーク相互運用性管理機能を備えており、クラスター内のあらゆるGPU間の相互運用性を確保します。

パフォーマンステストでは、異なるネットワークカードを使用してInspur AIStationプラットフォーム上のコンテナ内で通信する場合、異なるパケットサイズでパフォーマンスや遅延に損失がないことが示されています。銀行業務の特性をターゲットに、AIStationを大規模な画像カテゴリトレーニングタスクでテストしました。ResNet50とILSVRC 2012データセットを使用して高速化をテストしたところ、大規模な分散トレーニングで94%以上の高速化が示され、優れたパフォーマンスが実証されました。同時に、物理ホストのRDMAネットワークカードはコンテナにパススルーし、RoCEv2に基づくRDMA通信を完了できます。複数のRoCEネットワークカードを利用できる場合、GPUと高性能ネットワークカード間のトポロジ、NCCLアフィニティなどに基づいて、クロスノード通信に最適なRoCEネットワークカードを選択できます。

 強力なプラットフォーム統合機能により、ユーザービジネスとのシームレスな統合が可能になります。

銀行業界は、その多様化と高度化を特徴としています。AI関連業務を行う際には、通常、データ収集システム、データ処理システム、AI開発・訓練システム、モデル管理システム、推論サービスシステム、運用管理システムなど、複数のシステムの連携とサポートが必要です。社内汎用プラットフォームはこれらのシステムを統合できますが、AIリソース管理、AI単一マシンおよび分散訓練タスクのライフサイクル全体管理、AI開発・訓練システム内の異機種コンピューティングパワー管理などの機能が不足していることが多く、AIビジネスの要求を満たすことが困難です。

銀行内の複雑なシステムと業務プロセスに対応するため、AIStationプラットフォームは、汎用的なAIビジネスコールインターフェース機能を提供し、プロセスの簡素化と機能統合を実現します。また、異機種混在のリソースタスクをサポートすることで、銀行は基盤となるリソースの展開や接続性に関する懸念から解放され、業務処理に集中できます。AIStationプラットフォームは、タスクとデータのライフサイクル管理、クラスターリソースの監視、レポート作成などをカバーするフルドメインAPIインターフェースを提供し、管理者がクラスターの運用状況を把握するのに役立ちます。さらに、プラットフォームのAPI管理は、エンドツーエンドの暗号化伝送を実装し、データセキュリティを確保します。豊富で包括的、かつ安全なAPIインターフェースを通じて、AIStationは既存の銀行システムと迅速に統合でき、銀行は専門家レベルのAIコンピューティングインフラ管理機能を迅速に獲得できます。

要約

Inspur AIStationは、大手国有銀行への導入において、顕著な実証成果を達成しました。前述の主要技術を採用することで、GPU間通信性能の大幅な向上、ノード間のネットワーク通信オーバーヘッドの削減、全体的な処理性能の向上、そして総エネルギー消費量の効果的な削減を実現しました。同時に、ラックスペース要件の削減、クラスターコンピューティング密度の向上、そして基本リソースのコスト削減と効率向上を実現しました。これにより、高性能、高信頼性、スケーラブルなハードウェアおよびソフトウェアシステムアーキテクチャの構築に貢献し、AIトレーニングシナリオにおけるコンピューティングリソースの統合管理とインテリジェントなスケジューリングが可能になります。

Inspur AIStationは、銀行業界における最先端の大規模人工知能モデルの開発、トレーニング、そして応用のための強固な技術基盤を築いてきました。Inspurは今後も、フルスタックのインテリジェントコンピューティング能力を通じて金融AIビジネスイノベーションを推進し、金融のデジタルトランスフォーメーションとデジタル経済の高品質な発展を促進していきます。