|
大規模モデルの特定の機能を「実現」するには、大規模なデータセット、大規模なパラメータ セット、および大規模な計算能力がすべて必要であり、これはテクノロジ業界では広く認識されている点です。 大規模なモデルを構築する際の主流の考え方は、モデルが「動作しない」と簡単に言わないこと、そして「まだ動作しない」場合はさらに大きなモデルを構築することです。 そのため、わずか1年足らずで大規模モデルのパラメータ規模は100倍に増加し、現在では兆単位を超えています。膨大なリソース消費は、ストレージコスト、推論コスト、運用保守コスト、導入コスト、そして社会コストの増大をもたらしています。 現在、大規模モデルは商用化の初期段階にあります。大規模モデルへの投資をどのように回収するかは、依然として未知数であり、不確実性も大きいです。大規模モデルは成長を続けるにつれて、極めて資本集約的なビジネスへと変化しています。マイクロソフトが支援するOpenAIでさえ、2022年には約5億4,000万ドルの損失を出しました。 増加し続けるコストは、まるで紙幣の束のように、大手モデル企業の背骨を折る「藁」のようだ。アントロピックのCEO、ダリオ・アモデイ氏は最近、同社のモデルコストが今後2年以内に100億ドルに達すると予測した。 企業自身に加えて、社会も大規模モデルの隠れたコストを負担しています。Googleはかつて、PaLMのトレーニングに約2か月間で約3.4キロワット時の電力が消費されたと報告しており、これは300世帯の年間消費電力に相当します。大規模モデルの膨大なエネルギー消費によって生じる環境負荷とコストは、最終的には社会全体が負担することになります。 明らかに、ビジネスモデルの規模で競争することは、商業的にも環境的にも持続不可能です。 盲目的に大きさを追求する時代は終わりました。 問題は、大規模モデルの負担をいかに軽減するかということです。 実際、汎用大判機種の大手メーカーは「コストダウン」キャンペーンに積極的に取り組んでいます。 例えば、Microsoft Build 2020では、GPT-3をサポートするAIスーパーコンピューティング・スーパーコンピュータを発表しました。これにより、AIモデルのトレーニングは他のプラットフォームと比較して16倍の効率化が期待できます。トレーニングの高速化により、時間とリスクコストを削減できます。 国産の大型モデルも例外ではありません。 Pangu大規模モデルは、バージョン2.0の段階で、スパース+デンスアーキテクチャの採用によりトレーニングコストの削減を試みてきました。リリースから1か月後、Wenxin Yiyanは技術的な手段を用いて、大規模モデルの推論性能を約10倍向上させ、推論コストを従来の10分の1にまで削減しました。 肥大化や煩雑化を防ぎ、誰もが利用できるツールを実現するためには、大規模モデルの「コスト削減」キャンペーンが不可欠です。具体的には、どのように実現できるでしょうか?この記事では、この問題について考察します。 一口で太ることはできません。 大規模モデルのどのコストを最適化でき、どのコストを削減できず、どのコストにさらなる投資が必要でしょうか?これらを理解する前に、まずモデルがなぜこれほどまでに巨大化したのかを理解する必要があります。そうすることで初めて、大規模モデルのパフォーマンスとユーザーエクスペリエンス(健全性)を確保しながら、コストを合理的かつ正確に「スリム化」することが可能になります。 簡単に言えば、AI の 3 つの重要な要素であるデータ、コンピューティング能力、アルゴリズムは、大規模モデルのコストを決定する最も重要な要因であり続けています。 まずはデータから始めましょう。 「ガベージイン、ガベージアウト」の原則は、大規模モデルの時代においても依然として当てはまります。 データの品質は、大規模モデルの能力を直接左右します。OpenAIは、様々な業界の専門データを扱うために複数の博士号取得者を雇用し、Scale AIのようなユニコーン企業と提携してGPT-3の大規模データセットを提供しています。一方、アルゴリズムモデルは継続的に改良とアップグレードが行われ、利用の増加とパフォーマンスの最適化により、データ需要は相当期間にわたって高い水準を維持するでしょう。 大規模な中国語モデルの学習コストが高いのは、主に英語と比べて中国語データの量と質の両方に差があるためです。大規模な中国語モデルの学習には、はるかに多くの中国語データの収集と処理が必要です。さらに、英語の文法は中国語よりも単純であるのに対し、中国語のテキストはより複雑で多様です。中国語の単語の中には複数の意味を表すものがあり、周囲のテキストを理解する上で文脈が豊かで曖昧な状況も学習プロセスをさらに複雑にし、大規模な中国語モデルの学習をサポートするために追加のリソースが必要になります。 計算能力について話しましょう。 トレーニング、実行、提供、反復処理など、大規模モデルのライフサイクル全体には、計算リソースとストレージ リソースが必要です。 大規模モデルの学習では、多くの場合「ブルートフォース」アプローチが用いられます。パラメータが大きくなるほど、学習に必要な計算リソースも大きくなります。GPT-3で使用されたスーパーコンピュータは、10,000基のGPUと285,000基のプロセッサコアを搭載していました。国産のWenxin 4.0も、マルチコアクラスタを用いたPaddlePaddleプラットフォームで学習されました。 それだけではありません。大規模モデルは、導入・利用可能になると、利用の増加に伴い、推論タスクの負荷が増大します。この24時間365日体制の継続的な「思考」と「出力」は、膨大な計算リソースを消費します。これは、人間の脳が複雑なタスクを処理する際にグリコーゲンを枯渇させ、空腹感を覚え、エネルギー補給のために大量の食事を必要とするのと似ています。そのため、大規模モデルの推論コストも非常に高くなります。 GPT-3を175Bで導入する場合の推論コストは少なくとも5つのA100 GPUが必要となり、Wenxin Yiyanなど中国で公開されている大規模モデルでは推論コストが前世代の8~10倍になるといわれている。 最後にアルゴリズムについてお話しましょう。 大規模モデルのコンピューティングリソースへの過度の依存を軽減するための主流のアプローチは、モデルを最適化することです。これにより、パフォーマンスを維持しながら、モデルはより高速な推論速度、より低いレイテンシ、より低いリソース要件で実行できるため、ROIが向上し、トレーニングと推論に必要なコンピューティングリソースの単位コストが削減されます。 人工知能の量は人間の労働者数に正比例します。才能がなければ、真に競争力のある大規模モデルを構築することは不可能です。アルゴリズムの開発、テスト、反復、そして製品化には、すべて多くの技術者が必要です。人件費が高いかどうかは、大規模モデルのビジネスモデルの堅牢性に左右されます。 優秀な人材プールは、研究開発段階では非常に競争力があります。問題は、それをどのように収益化するかです。API呼び出しや使用料を1トークンあたり1セント未満で課金すると、コスト回収と収益性の確保は容易ではありません。有料サブスクリプション(プロフェッショナル版)は、主要な大規模モデルへの流入を抑制し、誰もがOpenAIやBATのような大企業を選ぶため、ユーザーが自社の大規模モデルを受け入れ、喜んで支払うかどうかは不透明です。業界クライアント向けのカスタム開発には、業界に関する深い知識、研究、開発、テスト、そして反復的な改善が必要です。年間数十万元、あるいは数百万人民元を稼ぐアルゴリズムエンジニアが、建設現場、鉱山、農場などで何ヶ月も費やしていると、プロジェクトの粗利益率は低くなる可能性があります。 したがって、大規模モデルの成功は、アルゴリズム自体の機能だけでなく、開発から実装までのビジネス サイクルの持続可能性にも依存します。 食べるものに気を付けて、もっと運動しましょう。 大型モデルのコスト削減を、余分な体重を減らしたい人に例えると、この目標は次の 2 つの基本的なアプローチに分けられます。 一つの方法は「カロリー不足」を作り出すことです。つまり、食事と運動をコントロールし、投入量を管理し、不要なコストを削減し、収益を増やすために商品化を加速すれば、自然と体重は減るということです。 第二に、「痩せ体質」への変化です。大規模モデルの仕組みを深く理解し、Transformerのアテンション機構の課題を新たなアーキテクチャで解決することで、「いくら食べても太らない」体質を実現できます。 2 番目の選択肢は非常に魅力的だと思いませんか? コスト管理やユーザー獲得、サービスのカスタマイズに苦労する必要がなく、寝ながら簡単に稼げる。こんないいことがあるでしょうか?まさにその通りです。 現在、大規模言語モデルはすべてTransformerアーキテクチャを採用していますが、長文や高解像度画像の処理には課題があります。論理的推論と知識誘導は総当たり攻撃に大きく依存しており、結果としてコストが高くなります。多くの基本原理が未解明のままであり、「錯覚」の生成や推論能力の限界など、多くの既存の問題が未解決のまま残されています。 チューリング賞受賞者のヤン・ルカン氏は、大規模言語モデル(LLM)の技術的パラダイムを幾度となく批判し、「LLMは世界について非常に表面的な理解しかしていない」と主張しています。彼は「世界モデル」を構築し、まず世界の仕組みを学習し、次に内部モデルを形成し、最終的にこの内部モデルを用いて様々なタスクを遂行することを目指しています。他にも多くの科学者が、それぞれの研究分野からAGI(アスペクト指向知能)を研究してきました。 まとめると、現在の大規模言語モデルの背後にある多くの原理は依然として不明瞭であり、技術は依然として進化を続けています。将来的には、現在のモデルの規模のみの追求を覆すような新たな技術パラダイムが出現する可能性があります。そうなれば、過剰なコストは不要になり、「スリム化」という苦痛を伴うプロセスもなくなるでしょう。 ご存知の通り、基礎原理を研究し、より強力なAGI技術を発見することは魅力的に聞こえますが、必ずしも確実ではなく、明確なタイムラインもまだありません。しかしながら、大規模言語モデルというこの新しいパラダイムは、エンジニアリングの実践において実現可能であり、産業界で機能し、品質と効率の向上に明確な効果をもたらします。テクノロジー企業にとって最も喫緊の課題は、これを使い始め、今この瞬間を捉えることです。 そのため、大型模型メーカーは支出を抑制し、コストを抑制してできるだけ早く商品化を加速する措置を講じることしかできず、健全で持続可能な発展のための「熱差」を生み出すことになります。 「熱差」を生み出す4つの近代化運動 では、具体的にどのように「熱差」を生み出すのでしょうか?現在利用可能な主流の方法に基づき、私たちはそれを「4つのアプローチ」としてまとめます。それは、データのスケーリング、モデルの圧縮、計算効率、そしてビジネスの階層化です。 データのスケーリングは、規模の経済性を活用してデータの限界便益を向上させ、費用対効果を実現します。規模の経済性は主に3つの方法で実現されます。第一に、産業集積によるスケーリングです。国家レベルでは、「データ要素市場の発展を加速する」という明確な要請があり、データの生産、収集、保管、処理、分析、サービス提供といった複数の段階が含まれます。産業化は、大規模モデル企業のデータコスト削減に役立ちます。第二に、AIツールの適用は、データエンジニアリングの様々な段階における人間の関与を減らし、事前学習データの処理を加速し、モデル学習の効率を高めながらコストを削減します。第三に、フィードバックデータのスケールアップです。大規模モデルでは、微調整データ(SFT/RLHF)の量と質の両方が求められます。百度の文心易眼、センスタイムのセンスチャット、百川知能の百川ビッグモデル、iFlytekの星火ビッグモデルなど、以前に公開されたいくつかの大規模モデルは、「データフライホイール」が早くから回転しており、限界利益を得るための最適なデータ規模に早く到達すると予想されている。 データには限界的な利点があります。OpenAIではすでに、チャットデータをトレーニングに使用するかどうかをユーザーが決定できるようになっています。つまり、ユーザーからのフィードバックデータに依存する必要がなくなり、データの保存と計算コストを自然に制御できるようになります。 モデル圧縮は、より少ないリソースでより高いパフォーマンスを実現することで、モデルのパフォーマンスを向上させることを目的としています。リソースを大量に消費する大規模なモデルを、圧縮技術を用いてよりコンパクトで効率的なバージョンに変換します。これは脂肪を筋肉に変換することに似ています。筋肉は密度が高いため、体重(パフォーマンス)は同じままですが、人はより痩せて(小さく)なります。 現在、大規模モデルを圧縮するための主な方法は、量子化、プルーニング、知識蒸留の 3 つです。 量子化は脂肪吸引のように、シンプルで直接的かつ効果的です。モデルの精度が高ければ高いほど、必要なストレージ容量は大きくなります。しかし、推論においては、複雑なモデルの微細な勾配変化を捉える必要はありません。そのため、量子化はモデルのパラメータ精度を直接下げ、詳細な情報を「抽出」することで、推論能力を大幅に損なうことなくストレージ容量を削減することができます。例えば、以前はクラウドでしか実行できなかった生成AIモデル「Stable Diffusion」は、Qualcomm AI Researchの支援により、低い精度でも精度を維持できるようになり、Androidスマートフォンへの展開が可能になりました。量子化技術は、WenxinやPanguといった国内の大規模モデルにも応用されています。 剪定は「切除手術」に似ており、多数の冗長な構造やニューロンなど、パフォーマンスへの影響が小さい側枝を直接削除します。これらの低重み部分を削除することで、モデルのパフォーマンスへの影響は最小限に抑えられ、モデルサイズも削減されます。もちろん、剪定は高度な技術であり、剪定の精度が高ければ高いほど、モデルの精度の低下が少なくなり、圧縮効果も高まります。 知識蒸留は、大規模なモデルを「サウナ」に入れるようなものです。数千億ものモデルを蒸留し、性能は同等で構造が単純化された複数の小規模モデルを生成することで、導入コストを削減します。課題は、数千億規模のモデルを蒸留するには膨大な計算リソースを消費すること、そして数千億から数千万規模までの蒸留ではデータ量に大きな差があり、蒸留結果に容易に影響を及ぼしうることです。ロスレス蒸留は、大手メーカーにとって重要な技術戦場の一つです。 モデル圧縮技術もコンピューティングリソースを消費するため、コンピューティングインフラストラクチャのコンピューティング効率を向上させることが特に重要になります。 計算効率は、大規模なモデルベンダーがモデル サービスをより効率的に提供するための前提条件です。 チップとコンピューティングクラスターの性能は、研究と最適化の重要な焦点です。Microsoft Azureは、OpenAI向けにAIコンピューティング専用のスーパーコンピュータを構築しました。BaiduやHuaweiなどの国内メーカーは、独自に開発したチップとディープラーニングフレームワークを有しており、エンドツーエンドの最適化を通じてコンピューティング効率を向上させ、大規模モデルのトレーニングと推論の速度を向上させ、トレーニング時間とコストを削減できます。 業界特化型大規模モデルなど、非汎用的な大規模モデルの場合、スケール効果やハードウェア最適化技術が限られており、自力でインフラを構築・維持するにはコストが非常に高くなります。クラウドサービスを利用してトレーニングを行い、サービスを展開する方が、より費用対効果の高い選択肢となります。 大規模モデルは最終的に、ROIを最適化しコストを回収するために、商業収益の増加を目指します。現在、様々な大規模モデルの商業化は明確な階層化を示しています。 簡単に言えば、これらはサイズ、機能、方向性が異なる大型モデルであり、その商品化の道筋は明確に分岐し始めています。 汎用的な大規模モデルは、主に規模の経済と高価値市場をターゲットとしています。OpenAIは膨大なユーザーベースを誇り、APIエコノミーの構築は規模の経済性をもたらし、事業規模の拡大に合わせて初期投資を償却することができます。BAT(Baidu、Alibaba、Tencent、Huawei)などの大手企業は独自のクラウド事業を展開し、金融、鉱業、政府などの分野の大企業や政府機関の顧客を中心に、業界サービスにおいて豊富な経験を積んでいます。彼らは大きな商業化の可能性を秘めており、マスマーケット向けサービスのサブスクリプションモデルや有料商用版に加えて、高価値B2Bプロジェクト向けのカスタマイズ開発も請け負うことができます。B2B顧客の高い需要は、モデルエクスペリエンスとパフォーマンスの向上を促進し、またB2C市場へのサービス提供も可能であり、スケーリングを通じてコストをさらに償却することができます。 大規模産業モデルは、製品と業務の境界を積極的に絞り込み、コアビジネスと機能に焦点を絞り、より少ないリソースで専門性の高い小規模モデルを開発することで、投資と事業化の間の良好なROIバランスを実現しています。例えば、金融分野では、杜暁満の「宣源70B」は、専門的な金融用語を大量に取り入れ、金融知識の理解力を向上させています。これは、制御性とセキュリティの面で金融顧客の特殊な要件を満たし、数百の金融機関からトライアルの申し込みを集めています。 結論として、大規模モデルは一般化され普遍的なアプローチを提供するだけではありません。様々な業界における民営化と個別化の導入は、価格、プライバシー、セキュリティといった意思決定要因を生み出し、多くのニッチなビジネスチャンスを創出します。汎用的な大規模モデルと業界特有の小規模モデルを組み合わせた階層的なアプローチは、商業化への道を切り開きます。多様性における調和は、産業チェーンを構成するすべてのプレーヤーの知恵を試すものです。 長期にわたる持続可能なサービスには、食事と身体活動の管理が不可欠であり、大規模モデルにおけるコスト削減は避けられない道です。 このプロセスは痛みを伴うかもしれませんが、保護バリアを築き、業界全体の健全な発展を守ります。 1940年代にコンピュータが初めて発明されたとき、人々はその「機械の怪物」の巨大さに驚嘆しましたが、その後、コンピュータは情報化時代の飛躍的な発展をもたらしました。スマートフォンが初めて発明されたとき、フィーチャーフォンメーカーは容赦なく嘲笑しましたが、この普遍的な接続性がモバイルインターネットの繁栄の原動力となるとは想像もしていませんでした。 大規模モデルがより高性能かつ安価になるにつれ、「誰もが AI を利用できる」という考えはもはや遠い夢ではなくなるでしょう。 |