HUOXIU

PODsys: 大規模な AI コンピューティング パワー プラットフォームを展開するためのオープンソースの「魔法の武器」。

大規模モデルは汎用人工知能の基盤を形成しますが、そのトレーニングはコンピューティング パワー プラットフォームに大きく依存しています。大規模モデル コンピューティング パワー プラットフォームとは、最新のアクセラレータ カード、高速相互接続ネットワーク、高性能分散ストレージ システム、液体冷却システム、大規模モデル開発用の効率的で使いやすいツールとフレームワークなど、大規模モデルのトレーニングと推論の展開をサポートするコンピューティング インフラストラクチャを指します。コンピューティング パワー プラットフォームの展開中に、大規模モデル開発組織は一連の課題に直面することがよくあります。大規模モデル コンピューティング パワー プラットフォームとはどのようなものか? 大規模モデル コンピューティング パワー プラットフォームを迅速に構築するにはどうすればよいでしょうか? コンピューティング パワー プラットフォームの安定性と信頼性を確保するにはどうすればよいでしょうか? 展開効率を向上させるにはどうすればよいでしょうか? コンピューティング パワー プラットフォームのパフォーマンスを向上させるにはどうすればよいでしょうか... これらの課題をうまく解決できるかどうかが、大規模モデルの開発とアプリケーションの展開の速度に直接影響します。

大規模モデルの技術革新と応用を加速させるため、Inspur Informationは大規模モデルインテリジェントコンピューティングソフトウェアスタックOGAI(Open GenAI Infra)をリリースしました。OGAIは、L0からL4までの5層アーキテクチャで構成され、それぞれインテリジェントコンピューティングセンターOS製品(インフラストラクチャ層)、PODsys製品(システム環境層)、AIStation製品(スケジューリングプラットフォーム層)、YLink製品(モデルツール層)、MModel製品(マルチモデル管理層)に対応しています。このうち、L1層であるPODsysは、インフラストラクチャ環境のインストール、環境の展開、ユーザー管理、システム監視、リソーススケジューリングなどの機能を備え、顧客にインテリジェントコンピューティングクラスターシステム環境の展開ソリューションを提供するオープンソースプロジェクトです。ユーザーは2つの簡単なコマンドを実行するだけで大​​規模モデルコンピューティングプラットフォームの展開を完了できるため、大規模モデルコンピューティングプラットフォームの展開効率が11倍向上し、大規模モデルの研究開発への第一歩をスムーズに踏み出すことができます。(ダウンロードアドレス:https://podsys.ai/)

大規模コンピューティング プラットフォームの展開上の課題に早急に対処する必要があります。

大規模モデルパラメータ数の急速な増加と学習データの複雑化は、AIコンピューティングパワープラットフォームの構築に新たな要求をもたらしています。これらのプラットフォームは、大規模データセンターのコンピューティングパワー展開の観点から、大規模分散モデルの学習に必要な計算、ネットワーク、ストレージ要件を考慮する必要があります。また、プラットフォームソフトウェアを統合し、アプリケーションの運用を統合し、データ転送、タスクスケジューリング、並列最適化、リソース利用率に十分配慮することで、高性能、高速相互接続、ストレージコンピューティングのバランスが取れたスケーラブルなクラスターシステムを設計・構築し、大規模AIモデルの学習ニーズを満たす必要があります。

強力な大規模コンピューティングプラットフォームには、CPU、GPU、ストレージ、ネットワークなどの高性能ハードウェアだけでなく、異なるハードウェアとソフトウェア間の互換性とバージョン選択を考慮し、ドライバーやツールの適応性と安定性を確保する必要があります。コンピューティングプラットフォームの規模が数十台のサーバーから数百台に拡大するにつれて、プラットフォームの展開の難易度は指数関数的に増大します。

まず、コンピューティングプラットフォームの導入には、数十種類もの関連ドライバーやソフトウェアパッケージが必要になることがよくあります。これらのドライバーやソフトウェアを適切にインストール、導入、最適化するには、専門の運用エンジニアと膨大なデバッグ時間が必要となり、導入効率に深刻な影響を与えます。次に、コンピューティングプラットフォームの高性能と安定した動作を確保するには、異なるハードウェア環境におけるソフトウェアの互換性を検証し、BIOS、オペレーティングシステム、基盤となるドライバー、ファイルシステム、ネットワークなど、複数の指標を最適化し、最適な選択肢を見つける必要があります。この作業にも時間と労力がかかります。さらに、コンピューティングプラットフォームのリソース状況は常に変化しており、適切なリソースのスケジューリングと管理がなければ、プラットフォームのリソース利用率に容易に影響が及ぶ可能性があります。

PODsys を使用すると、大規模なコンピューティング プラットフォームの導入が簡単になります。

PODsys は、大規模なコンピューティング パワー プラットフォームの展開シナリオに重点を置いており、インフラストラクチャ環境のインストール、環境の展開、ユーザー管理、システムの監視、リソースのスケジュール設定を含む完全なツールチェーンを提供し、オープン ソースで効率的、互換性があり、使いやすいインテリジェント コンピューティング クラスター システム ソリューションの作成を目指しています。

PODsysは、大規模コンピューティング・プラットフォームの導入に必要な数十種類のドライバとソフトウェア・パッケージ、そしてそれらの依存関係と互換性情報を統合し、簡素化された一連の導入スクリプトを提供します。これらのツールを使用することで、ユーザーはPODsysを用いてわずか2つの簡単なステップで大規模コンピューティング・プラットフォームを迅速に導入できます。

ステップ 1: docker run コマンドを使用して、PODsys システムをすばやく起動します。

PODsysシステムは、大規模コンピューティングプラットフォームの導入に必要な数十種類のドライバー、ソフトウェア、インストールパッケージを統合しています。これには、オペレーティングシステム、GPUドライバー、ネットワークカードドライバー、通信アクセラレーションライブラリなどが含まれます。また、導入を簡素化する一連のスクリプトツールも提供しており、ユーザーはクラスター環境を迅速にインストール、構成、更新できます。PODsysは、業界で広く使用されている主流のオープンソースシステム、ツール、フレームワーク、ソフトウェアを幅広く活用することで、導入ソリューション全体のオープン性、互換性、安定性を確保しています。

ステップ 2: install_client コマンドを使用して、大規模コンピューティング プラットフォームの並列ソフトウェア環境を迅速に展開します。

PODsysは、単一マシン展開からクラスタ展開へと変更することで、展開効率を11倍以上向上させます。管理ノード上で簡単なコマンド(install_client.sh)を実行するだけで、大規模コンピューティングプラットフォームの環境設定が完了します。高速ファイルシステムインターフェース、自動運用・保守ツール、NVIDIA CUDAプログラミングフレームワーク、NCCL高性能通信ライブラリが統合され、NGCアクセラレーションプラットフォームもサポートされます。また、マルチユーザー、マルチテナントのクラスタ管理も可能になります。

PODsysは包括的なシステム監視と管理機能を提供し、クラスタの状態とパフォーマンスメトリクスをリアルタイムで監視できるようにします。視覚的なインターフェースを通じて、クラスタリソースの使用状況、ジョブ実行状況、パフォーマンスのボトルネックを把握できるため、クラスタ構成のタイムリーな調整とジョブパフォーマンスの最適化が可能になり、コンピューティングプラットフォームの高性能と安定した運用を実現します。

さらに、PODsys には効率的なリソース スケジューリングおよびジョブ管理機能があり、ユーザーのニーズに応じてジョブを自動的にスケジュールおよび管理できるため、クラスターのリソース使用率とジョブの実行効率が保証されます。

大規模モデルの急速な応用に伴い、コンピューティングプラットフォームの堅牢性、使いやすさ、導入効率はユーザーにとって主要な関心事となっています。PODsysは、商用ユーザー向けに、専門的なコンピューティングプラットフォームのパフォーマンスチューニングサービスも提供しています。

要約すると、PODsys は、システムのインストールと同じくらい簡単に大規模モデル プラットフォームを展開できる完全なツールチェーンを提供し、ユーザーが大規模モデル コンピューティング プラットフォームを迅速かつ簡単に展開できるようにして、大規模モデルのイノベーションの第一歩を踏み出すのに役立ちます。