 著者: Wang Bin (Alibaba Cloud ソリューションアーキテクト)、Yao Lantian (Rokid テクニカルエキスパート)、Nie Dapeng (Alibaba Cloud シニアテクニカルエキスパート) ## 会社概要と事業内容 Rokid は 2014 年に設立され、ヒューマンコンピュータインタラクション技術に重点を置いた製品プラットフォーム企業です。Rokid は、音声認識、自然言語処理、コンピュータビジョン、光学ディスプレイ、チッププラットフォーム、ハードウェア設計など、複数の分野の研究を通じて、最先端の AI および AR テクノロジーと業界のアプリケーションを組み合わせています。同社は、様々な垂直産業の顧客にフルスタックソリューションを提供し、ユーザーエクスペリエンスの向上、業務効率の向上、公共の安全確保に貢献しています。AIおよびAR製品は、世界80以上の国と地域で既に導入されています。Rokid Air Pro ARグラス製品は、観光地、大企業、国内研究機関にサービスサポートを提供しています。現在、Rokidは中国全土の100以上の博物館や景勝地と提携し、訪問者に没入型で非日常的な旅行体験を提供しています。 ## 建築イノベーションの必要性 RokidのAR研究は、同社の創業当時まで遡ります。2012年にGoogle Glassが登場し、その大きな可能性はRokidの創業チームに深い感銘を与えました。 Google Glassは、その利用シーンの多さと高価格のため、持続的な普及には至りませんでしたが、近い将来、インフラとエコシステムのアプリケーションの成熟、そして人々のエンターテインメントや仕事体験への需要の継続的な高まりに伴い、AR技術は確実により広く利用されることが予測されます。デジタルカルチャー分野において、Rokidの展示・ガイドツアーソリューションは、主に3Dマッピング、シーンクリエーション、シーンエクスペリエンスの3つのビジネスモジュールで構成されています。各モジュールは、それぞれ異なるバックエンドプラットフォームによってサポートされています。1. 3Dマッピング:展示・ガイドツアー制作の最初のステップはシーン選択です。会場の実際の設定は、機材を用いて撮影され、アルゴリズムによって処理されて3Dモデルが作成されます。このモデルは、クリエイターがさらなるコンテンツ制作に活用できます。2. シーンクリエーション:3Dモデルから生成されたビデオストリームに基づいてシーンクリエーションが行われます。Web3Dレンダリングエンジンは、作成されたコンテンツとシーンを緊密に統合し、ハードウェアデバイスと組み合わせることで、ARデバイスと併用することで統一された体験を実現します。 3. シーン体験:ARデバイスは位置情報サービスに基づいてシーン内に固定され、位置に応じて異なる空間コンテンツが表示されるため、現実世界のシーンを拡張する効果が得られます。製品全体のアーキテクチャ図は次のとおりです。から20秒(コールドスタート)まで柔軟です。Rokidの3Dマッピングシナリオはオフラインタスクであり、1本のビデオの処理時間は数分単位です。起動時のレイテンシは数秒で十分許容されます。Function Computeを統合した後、 3DマッピングタスクをFunction Computeに統合することで、RokidはECIリソースを手動で要求する必要がなくなり、使用後に手動で解放する必要もなくなりました。Function Computeは、リクエストトラフィックに基づいてリクエスト量に合わせてバックエンドGPUコンピューティングリソースを動的に割り当て、リクエスト処理後に一定期間非アクティブになるとリソースを自動的に解放します。3Dモデリングプロセス全体は複数のステップで構成され、それぞれが非同期で実行されます。Function Computeの非同期システムにより、1つのステップの完了時に次のタスクが自動的にトリガーされます。Function Computeコンソールには、メトリクス監視、異常アラート、トレース、呼び出しログ、非同期構成機能が組み込まれており、開発から実行時監視、運用・保守に至るまで、Rokidのライフサイクル全体の機能ニーズを満たします。Function Computeは、Alibaba Cloudの大規模なコンピューティングプールと、予熱およびリソース評価のためのバックエンドアルゴリズムを活用し、リソース供給を最大化します。これらはまさにRokidが以前抱えていた問題点です。Function Computeを単一の製品として統合することで、Rokidの主要な問題のほぼすべてが解決されました。Function Computeの統合後、Rokidのクラウド製品の技術アーキテクチャは次のとおりです。 関数コンピューティングリソースの使用率モニタリンググラフを以下に示します。グラフからわかるように、タスクが到着すると、GPUコンピューティングの使用率は60%、あるいは100%に近づくこともあります。 d179&originHeight=265&originWidth=610&originalType=binary&ratio=2&rotation=0&showTitle=false&size=122586&status=done&style=none&taskId=u1a31e8ce-06c7-4155-a9fa-979b05dad2f&title=&width=408) ## エクスペリエンスとアーキテクチャの妥協点 Function Compute のサーバーレスコンセプトは、確かに Rokid に多くの利便性をもたらし、リソースのスケーラビリティとピーク時のコスト削減という点で、現在のクラウド製品の中で最高のレベルを達成しました。しかし、Function Compute は万能薬ではありません。Rokid のシナリオベースのエクスペリエンス機能、つまりリアルタイムの位置情報サービスを提供する必要があるモジュールの場合、Function Compute にはまだ特定の問題があります。 Function Computeがインスタンスリソースを初めて起動する際、1秒(ウォームスタート)から20秒(コールドスタート)の起動時間がかかります。これは、リアルタイム位置情報サービスモジュールにとって許容できない時間です。リアルタイム位置情報は、ユーザーが展示エリアにいるときに使用され、ARデバイスはリアルタイム測位を通じて空間位置に関するAR拡張情報を取得します。インターフェースの応答時間はユーザーエクスペリエンスにとって非常に重要であり、位置情報要求は1秒以内に返される必要があります。コストとサービス品質のバランスをとるため、Rokidはサービス品質を最優先しました。シーンエクスペリエンスモジュールはECIデプロイメントを採用しています。毎日スケジュールされたタスクを通じて、ピーク時にはより多くのECIインスタンスを事前に起動し、オフピーク時には少数のECIインスタンスを保持することで、エクスペリエンスとコストのバランスを実現しています。一方で、Function Computeにはリアルタイムシナリオに対するソリューションが全くないわけではありません。現在、GPUモデルは一般的に非常に大きく、画像サイズはギガバイト単位です。そのため、リソースの初回起動時には、CPUリソースと同様に100ミリ秒以下の起動速度は当面期待できません。リアルタイムシナリオ向けに、Function Compute GPUインスタンスは予約インスタンスです。この機能は、リソースがアイドル状態のときに、プログラムのメモリランタイムイメージを保持しながらコンピューティングリソースを解放します。新しいリクエストが到着すると、コンピューティングリソースのみを供給するだけで、関数はサービスを提供できるため、中間ハードウェアリソースの起動、関数イメージの取得、起動に必要な時間を削減し、リアルタイムサービスを提供します。予約インスタンスはCPUインスタンスで既にオンラインになっています。アイドル状態のCPU料金は実行料金の1/10となり、リアルタイム性を確保しながらリソースコストを大幅に削減します。GPUバージョンの予約機能は、年末までにオンラインになる予定です。シナリオ体験のために ECI を採用した後、Rokid のビジネス アーキテクチャ図は次のようになります。 ## 素晴らしい成果とさらなる期待:一連のクラウドアーキテクチャの変革を経て、現在、Rokidの3DマッピングモジュールはFunction ComputeのGPUリソース上で動作し、シーンエクスペリエンスモジュールはECIリソース上で動作しています。これにより、コストとパフォーマンスのバランスが取れていると同時に、システム全体に強力なスケーラビリティを提供し、システム設計時に設定されたアーキテクチャ目標を達成しています。2023年2月のサービス開始以来、良好な成果を上げています。3Dマッピングモジュールは大幅なコスト削減を実現し、初期のECSアーキテクチャと比較してコンピューティングパワーコストが40%削減されました。さらに重要なのは、リアルタイムの並行処理によりサブタスクのキューイング時間が大幅に短縮され、タスク全体の完了時間が短縮されたことです。次に、RokidはFunction Compute用の予約済みGPUインスタンスに非常に期待しており、Function Computeができるだけ早く開始されることを願っています。これにより、Rokidは社内のGPUコンピューティング能力をすべてFunction Computeに移行し、アーキテクチャの統一を実現できます。展示プロジェクトの経験に基づき、RokidはFunction Computeに代表されるサーバーレスこそが、間違いなくクラウドコンピューティングの未来だと考えています。サーバーレスにより、クラウドユーザーは基盤となるIaaSレイヤーの運用やスケジュールを気にする必要がなくなり、最適なコストを確保しながら最大限のスケーラビリティを実現できます。さらに、サービスのライフサイクル全体を通して、ユーザーはクラウド製品が提供するネイティブ機能を利用して、問題を簡単かつ迅速に特定し解決できます。Rokidは現在、3Dモデル処理とオーディオ/ビデオのポストプロセス処理においてFunction Computeの大規模トライアルを実施しており、Function Computeに代表されるサーバーレスアーキテクチャが、ますます多くのクラウド製品に採用されると考えています。 # 新しく「5つのクラシックAIシナリオのFunction Compute(FC)ワンクリック展開:「Tongyi 1000 Questions事前体験」、「Text-to-Image」、「Image-to-Image」、「Image-to-Text」、「Text-to-Text」」が利用可能になりました! これにより、「Tongyi 1000 Questions」ダイアログを事前体験する機会が30回得られ、画像とテキスト生成サービスを簡単かつ効率的にワンクリックで展開できるため、すぐにAIGCクリエイターになることができます。 ### ダブル賞 - Function Computeのアクティベーションとアプリケーションの展開を完了すると、開発者コミュニティポイント400ポイントを獲得できます。 - AI画像生成コンテストに参加して、AirPods(第3世代)、Alibaba CloudカスタマイズBluetoothスピーカー、Alibaba CloudカスタマイズQingya Cupを獲得しましょう!参加リンク: [https://developer.aliyun.com/topic/aigc_fc#J_5808073260](https://developer.aliyun.com/topic/aigc_fc#J_5808073260)