HUOXIU

ファーウェイ、Ascend AI Cloud サービスを開始

7月7日に開催されたファーウェイ開発者会議2023(クラウド)では、Pangu Large Model 3.0に加え、Ascend AI Cloud Serviceも大きな注目を集めました。ファーウェイのエグゼクティブディレクター兼Huawei Cloud CEOの張平安氏は、Ascend AI Cloud Serviceはクラスターあたり2000P Flopsの演算能力を提供し、1000kcalで30日間のトレーニング後、90%の長期安定率を達成したと発表しました。これにより、業界に安定した信頼性の高いAIコンピューティングパワーを提供し、大規模モデルを容易に利用できるようになります。

大規模モデルのイノベーションは、モデル自体だけでなく、AI基盤技術にも大きく依存しています。ファーウェイは、KunpengとAscendをベースに、異機種コンピューティングアーキテクチャCANN、フルシナリオAIフレームワークMindSpore、AI開発・生産ラインModelArtsを基盤としたAIコンピューティングクラウドプラットフォームを構築したと報じられています。これらは、分散並列アクセラレーション、演算子とコンパイルの最適化、クラスターレベルの通信最適化など、大規模モデルの開発と運用に不可欠な機能を提供します。ファーウェイのコアAI技術を基盤とすることで、大規模モデルのトレーニング効率は、業界主流のGPUの1.1倍に最適化されます。

大規模モデルのトレーニングにはコンピューティング能力が不可欠です。今回のカンファレンスで、張平安氏は、クラスターあたり2000P Flopsのコンピューティング能力を誇るAscend AI Cloud Serviceを、ファーウェイクラウドのウランチャブと貴安AIコンピューティングパワーセンターで同時に開始すると発表しました。Ascend AI Cloud Serviceは、ファーウェイのフルシナリオAIフレームワークMindSporeをサポートすることに加え、PyTorchやTensorflowなどの主要なAIフレームワークもサポートしています。さらに、これらのフレームワークの演算子の90%は、ファーウェイのエンドツーエンドの移行ツールを使用してAscendプラットフォームにスムーズに移行できます。例えば、Meituはわずか30日間で70のモデルをAscendに移行しました。同時に、ファーウェイクラウドとMeituチームは共同で30以上の演算子を最適化し、並列処理を加速した結果、元のソリューションと比較してAIパフォーマンスが30%向上しました。

さらに、大規模モデルのトレーニングではGPU障害が頻繁に発生し、開発者はトレーニングを頻繁にやり直す必要があり、時間とコストの負担が増大します。Ascend AI Cloud Serviceは、より安定したAIコンピューティングパワーサービスを提供し、1,000カロリーで30日間のトレーニング後でも90%の安定率を達成し、ブレークポイントからの回復時間は10分以内です。

「世界中の顧客、パートナー、開発者が大規模なモデルをトレーニングして使用できるように、私たちは世界中の顧客向けに AI の新たな柱を築き、すべての AI 開発者に新しい選択肢を提供することに取り組んでいます」と張平安は述べています。

Huawei Cloudは、開発者を中心としたオープンでWin-Winのグローバルエコシステムの構築に注力しています。報道によると、Huawei Cloudは現在、世界中で460万人以上の開発者を擁し、クラウドストアでは1万点以上の製品を提供しています。Huawei Cloudは、使いやすく信頼性の高い大規模モデルツールスイート、様々な業界シナリオに対応する膨大なAPIを集約したKaiTian aPaaSプラットフォーム、そして豊富で高品質なコースと技術認定を含む大規模モデル専用コミュニティを提供しています。Huawei Cloudは、開発者やパートナーと協力し、Pangu大規模モデルを様々な業界に統合するための革新的な道を模索したいと考えています。