|
最近、 Alibaba CloudのAIプラットフォームPAIの論文「Llumnix: 大規模言語モデルサービングのための動的スケジューリング」がOSDI '24に採択されました。この論文は、大規模言語モデル(LLM)の推論リクエストを動的にスケジューリングすることで、推論サービスの品質と費用対効果を大幅に向上させます。 Llumnix は、異なるモデルインスタンス間でリクエストを柔軟に再配分できる業界初のフレームワークです。実験では、最先端の LLM サービス システムと比較して、Llumnix はリクエスト テール レイテンシを10 倍以上削減し、高優先度リクエストの速度を1.5 倍向上させ、コストを元の64%に削減しながら、同様のテール レイテンシを実現できることが示されています。 OSDIは、オペレーティングシステムと分散システム分野におけるフラッグシップカンファレンスです。OSDIとその姉妹カンファレンスであるSOSPは、長年にわたりシステム分野の発展を促進する上で重要な役割を果たし、学界と産業界の両方に多大な影響力を持っています。OSDI/SOSPからは、GFS、MapReduce、BigTableといった古典的な分散システムや、TensorFlow、TVM、vLLMといった人工知能分野に大きな影響を与えたシステムなど、多くの影響力のある論文やシステムが誕生しています。 今回の選定は、アリババクラウドのAIプラットフォームPAIが大規模モデル推論において業界をリードし続け、国際的な学者から認められ、中国の機械学習システム技術革新の国際競争力を実証していることを示しています。 ChatGPTという破壊的な製品が登場して以来、生成型大規模言語モデル(LLM)技術は急速な発展を遂げてきました。わずか1~2年の間に、私たちは一連の大規模モデルと製品の誕生と応用を目の当たりにしてきました。LLM推論サービスは、LLMの継続的な製品化を支える重要な技術基盤となっています。しかしながら、LLM推論の要求と実行は、高い変動性、ダイナミズム、そして予測不可能性を示します。これらの特性は、現在の推論サービスシステムに一連の課題をもたらし、LLM推論サービスの効率を著しく制限しています。 Llumnixは、Alibaba Cloud PAIチームによって開発されたLLM推論動的スケジューリングフレームワークです。スケジューリングの動的な性質を活用して、リクエストの動的な性質によって生じる課題を軽減することを目的としています。Llumnixは、複数のモデルインスタンスにわたるリクエストの実行時再スケジューリングをサポートするフレームワークです。この再スケジューリング機能により、Llumnixはリクエスト状態の動的な変化に基づいてスケジューリングの決定を適応的に調整し、負荷分散、断片化のデフラグ、リクエストの優先順位付けなどの一連のスケジューリング機能と最適化を実現します(下図参照)。LLaMAシリーズモデルの実験では、レイテンシの大幅な短縮、優先度の高いリクエストの高速化、サービスコストの削減など、動的スケジューリングの可能性が最初に実証されました。 Alibaba Cloud AI Platform (PAI) チームは、Llumnix を製品化し、オープンソース化しました(GitHub アドレス: https://github.com/AlibabaPAI/llumnix )。現在のバージョンの Llumnix は、バックエンド推論エンジンとして vLLM をサポートし、複数の vLLM インスタンスを自動的に起動し、それら間でリクエストのスケジュールと再スケジュールを実行します。Llumnix は vLLM と非常によく似たユーザーインターフェースを維持しているため、導入済みの vLLM サービスにスムーズかつ透過的に統合できます。現在、Llumnix のオープンソース版はアルファ版であり、現在も活発に開発とイテレーションが行われています。ぜひお試しいただき、フィードバックをお寄せください。 今後、LlumnixはAlibaba CloudのAIプラットフォームであるPAIが自社開発したBladeLLM推論エンジン、 PAI-EASオンラインモデルサービス、その他の製品と深く統合され、統合型高性能LLM推論スイートを形成します。このスイートはPAIのLingjun Intelligent Computing Service製品に統合され、企業や個人開発者がクラウド上で大規模言語モデルサービスを革新するのを支援します。 論文情報論文タイトル: Llumnix: 大規模言語モデル配信のための動的スケジューリング 著者: Sun Biao、Huang Ziming、Zhao Hanyu、Xiao Wencong、Zhang Xinyi、Li Yong、Lin Wei 論文リンク: https://www.usenix.org/conference/osdi24/presentation/sun-biao |