|
概要:Fermyon Technologiesは、WebAssemblyにAIを適用するのは時期尚早ではないと考えています。WebAssemblyは、サーバー上で推論を実行するための強固な基盤を提供します。これらのワークロードを、ブラウザやIoTデバイスなど、様々な環境にあるエンドユーザーデバイスに移行することで、レイテンシを排除し、集中管理サーバーにデータを送信することでデータの重複を回避できます。また、エッジで検出された様々な異種デバイス上で実行することも可能です。Fermyon Serverless AIは、他のオンデマンドAIインフラストラクチャサービスと比較して100倍以上高速な1秒未満のコールドスタート時間を提供することで、エンタープライズAIアプリケーションの高コスト化に対処します。これはまさに共生関係です。 人工知能とそのIT、ソフトウェア開発、運用への応用は、ようやく効果を発揮し始めたばかりであり、人間の役割が短期的および長期的にどのように進化していくかを予見させています。特に小規模なWebAssemblyは、大きな注目を集め、その実現可能性を証明している技術ですが、エンドポイントの標準化が不十分なため、成功するビジネスモデルはまだ現れていません。一方、少なくともベンダーの1社であるFermyonは、現段階でWebAssemblyにAIを適用することは時期尚早ではないと考えています。 では、AIはWasmの開発と普及にどのように貢献できるのでしょうか。そして、それを断言するのは時期尚早でしょうか。VMwareのCTOオフィスのシニアエンジニアであるAngel M De Miguel Meana氏が指摘するように、AIエコシステムはChatGPTの発売以来劇的に変化しました。WebAssemblyはサーバー上で推論を実行するための強固な基盤を提供し、これらのワークロードをブラウザやIoTデバイスなど、さまざまな環境にあるエンドユーザーデバイスに移動することで、レイテンシをなくし、データを集中サーバーに送信することで遅延を回避することができます。同時に、エッジで発見されたさまざまな異種デバイス上で実行できるようになります。Wasmエコシステムはまだ発展途上であるため、早い段階でAIを統合することは、新規および既存のAI関連標準の推進に役立ちます。これは共生関係です。 完璧なマッチ Fermyon Technologiesの共同創業者兼CEOであるマット・ブッチャー氏は、The New Stackの取材に対し次のように語っています。「Fermyonを設立した目的は、次世代のサーバーレスプラットフォームを構築することでした。AIは明らかにその次世代の一部です。私たちの業界では、JavaとWeb、クラウドとマイクロサービス、DockerとKubernetesといった革新的な技術が共に成長していくのをよく目にします。WebAssemblyとAIはまさに完璧な組み合わせです。私は、この2つが共に成長し、そして共に成熟していくと考えています。」 LLM(大規模言語モデル)やコンバーターなどのAIモデルをWebAssemblyランタイムに組み込むことは、WebAssemblyの普及を加速させるための論理的な次のステップだと、Enterprise Management Associates(EMA)のアナリスト、Torsten Volk氏はThe New Stackに語った。API経由でデータベースサービスを呼び出すのと同様に、WebAssemblyアプリケーション(バイナリファイル)をコンパイルすると、APIリクエストがWebAssemblyランタイムに送信され、WebAssemblyランタイムがAIモデルへの呼び出しを中継し、モデルのレスポンスをイニシエーターに返すとVolk氏は述べた。 「データベース、AIモデル、GPU、メッセージング、認証などにアクセスするための標準APIを開発者に提供する共通コンポーネントモデル(CCM)が実現すれば、これらのAPIリクエストは非常に強力になります。CCMにより、開発者は同じコードを記述して、データセンター、クラウド、さらにはエッジロケーションなど、あらゆるタイプのサーバー上のAIモデル(GPTやLlamaなど)と通信できるようになります。ただし、そのサーバーに十分なハードウェアリソースが備わっている必要があります」とVolk氏は述べています。「結局のところ、重要な疑問は、業界関係者がいつCCMに合意するのかということです。一方、WebAssemblyクラウド(Fermyonなど)は、WebAssemblyを活用することで、CCMを必要とせずにAIモデルを自社のクラウドインフラストラクチャ内で移植可能かつスケーラブルにし、コスト削減を顧客に還元することができます。」 問題解決 一方、Fermyon氏は、現段階でWebAssemblyにAIを適用するのは時期尚早ではないと考えています。Butcher氏が指摘するように、LLM(LLaMA2など)上でエンタープライズAIアプリケーションの構築と実行を担当する開発者は、100倍のコンピューティングコスト、つまり1時間あたり32ドル以上のGPUアクセス料金という課題に直面しています。オンデマンドサービスを利用することもできますが、起動時間が非常に遅いため、エンタープライズグレードのAIアプリケーションを手頃な価格で提供することは現実的ではありません。 Fermyon Serverless AIは、他のオンデマンドAIインフラサービスと比較して100倍以上高速な1秒未満のコールドスタートを実現することで、この問題に対処しているとブッチャー氏は述べています。この画期的な進歩は、Fermyon Cloudを支えるサーバーベースのWebAssemblyテクノロジーによるものです。Fermyon Cloudは、1ミリ秒未満のコールドスタートと大容量のタイムシャーディングを備えたコンピューティングインスタンスとして設計されており、コンピューティング密度を30倍向上させることが実証されています。「このランタイムプロファイルをGPUに拡張することで、Fermyon Cloudは最速のAI推論インフラサービスになるでしょう」とブッチャー氏は述べています。 Volk氏は、このような推論サービスは「非常に興味深い」と述べました。なぜなら、典型的なWebAssemblyアプリケーションは数メガバイトしか持たないのに対し、AIモデルははるかに大規模だからです。つまり、従来のWebAssemblyアプリケーションほど高速に起動できないということです。「Fermyonは、タイムスライスを用いてWebAssemblyアプリケーションにGPUアクセスを提供する方法を編み出したと思います。これにより、すべてのアプリケーションはWebAssemblyランタイムを通じてタイムスライスを予約し、必要なGPUリソースを取得できるようになります」とVolk氏は述べました。「つまり、多くのアプリケーションが高価なGPUの一部を共有し、ユーザーにオンデマンドでサービスを提供できるということです。タイムシェアリングに似ていますが、ランチタイムのデモに参加する必要がないのです。」 Spinを使い始める では、ユーザーはServerless AIとどのようにインタラクションするのでしょうか?FermyonのServerless AIはREST APIや外部サービスを備えておらず、FermyonのSpinをネイティブに、そしてFermyon Cloud上でのみ構築されているとButcher氏は説明します。「Serverless AIにヒントを渡せば、コード内のどこからでも応答を得ることができます。この最初のベータ版には、LLaMa2チャットモデルと最近発表されたCode Llamaコード生成モデルが含まれています」とButcher氏は言います。「つまり、テキストの要約、独自のチャットボットの実装、バックエンドコードジェネレーターの作成など、Serverless AIがあらゆるニーズに対応します。私たちの目標は、AIをシンプルにし、開発者がAIを活用して魅力的な新しいサーバーレスアプリケーションをすぐに構築できるようにすることです。」 意義 Fermyon Serverless AIは、WebAssemblyを使用してワークロードを実行することで、ユーザーアプリケーションに「GPUのごく一部」を割り当て、AI演算を「タイムリーに」実行できると、FermyonのCTO兼共同創設者であるRadu Matei氏はブログ記事で述べている。「演算が完了すると、そのGPUのごく一部をキュー内の別のアプリケーションに割り当てます」とMatei氏は述べている。「Fermyon Cloudの起動時間はミリ秒単位なので、GPUに割り当てられたユーザーアプリケーションを素早く切り替えることができます。すべてのGPUスコアがデータ計算でビジー状態の場合、次の利用可能なアプリケーションよりも先に、新しいアプリケーションをキューに入れます。」 マテイ氏によると、これには2つの重要な意味合いがある。まず、ユーザーは仮想マシンやコンテナが起動してGPUに接続するまで待つ必要がなくなる。さらに、「リソースの利用率と効率性を向上させることができる」とマテイ氏は述べている。 Fermyon が伝えるサーバーレス AI の具体的な特徴は次のとおりです。 • これは、AI 推論にオープンソース LLM を使用するサーバーレス アプリケーション向けに設計された開発ツールおよびホスティング サービスです。 • コア技術であるWebAssemblyのおかげで、コールドスタート時間は競合他社の100倍高速化され、数分かかっていたものが1秒未満にまで短縮されました。これにより、現在サービスが1つのアプリケーション(バイナリ)を実行するのに対し、当社では同じ時間(同じハードウェアを使用)で数百のアプリケーション(バイナリ)を実行できます。 • Spin を使用して AI アプリケーションを構築および実行し、それを Fermyon Cloud にデプロイして、他のソリューションに比べてわずかなコストで高性能に配信するためのネイティブ開発エクスペリエンスを提供します。 • Fermyon Cloudは、AIレベルのGPUを使用して各リクエストを処理します。高速起動と効率的なタイムシェアリングにより、1つのGPUを数百のアプリケーションで共有できます。 • 無料のプライベートベータ版をリリースします。 大きな希望 しかし、WasmとAIが同時にその潜在能力を最大限に発揮するには、まだ長い道のりがあります。WasmCon 2023では、Second StateのCEO兼共同創設者であるMichael Yuan氏が、WasmのランタイムプロジェクトとWasmEdgeに関する進行中の取り組みについて説明しました。彼はWasmCon 2023で、De Miguel Meana氏との「AIとWebAssembly入門」と題した対談の中で、このトピックについて詳しく説明しました。 「この分野(AIとWasm)には、エコシステム全体で取り組むべき課題が山積しています。例えば、推論だけでは不十分です」とユアン氏は述べた。「今、最も重要な問題は、画像とテキストをどのようにして数値の列に変換するか、そして推論後にそれらの数値をどのようにして利用可能な形式に戻すかということです。」 Yuan氏によると、前処理と後処理は、これらのタスクに利用できる多数のライブラリのおかげで、今日のPythonの最大の強みの一つとなっている。これらの前処理および後処理関数をRust関数に統合することは有益だが、他のモジュールをサポートするにはコミュニティからのさらなる努力が必要になるだろう。「このエコシステムには大きな成長の可能性がある」とYuan氏は述べた。 |
WebAssembly に AI を適用するのは時期尚早でしょうか?
関連するおすすめ記事
-
上海で初めて大型模型産業の発展に関するセミナーが開催され、第一線の専門家が一堂に会して業界を探究し、成功裏に終了しました。
-
朝のニュース | 2023年10月31日(火)
-
Google が技術レポートを公開: PaLM-2 推論は GPT-4 を上回り、トレーニング テキストは第 1 世代の約 5 倍に増加しました。
-
OpenAIがAI駆動型健康分野に参入。AppleのAIを搭載した最初のスマートホームデバイスはデスクトップロボットになる予定 | AI Daily
-
数十億ドル規模のクラウドコンピューティング プロジェクトに続いて、国防総省はまたもや散財しようとしている。
-
Meta AI は、画像、ビデオ、3D データを含む 3 つの主要な分類タスクを処理する単一のモデルであり、スタンドアロン モデルに匹敵するパフォーマンスを備えた「Omnivore」を導入しています。