|
出典: OneFlowの 著者|Pi etro Casella、Patrik Liu Tran Jia Chuan、 Xu Jiayu、Yang Ting による翻訳 言語(すなわち識字能力)は人類の最も重要な発明であり、人間と他の種との最大の違いです。言語は、私たちが抽象的な推論を理解し、複雑な思考を発達させ、他者とコミュニケーションをとることを可能にします。言語がなければ、現代文明は存在しなかったと言えるでしょう。 そのため、ChatGPTの急速な導入が示すように、大規模言語モデル(LLM)は今後数年間、生成AIの開発に大きな影響を与えるでしょう。さらに、LLMはコンテンツ作成、コード生成、医薬品開発、翻訳、検索、そして職場のユーティリティ(会議の書き起こしや要約など)など、様々なシナリオに適用されています。 結論として、生成AIの最新の進歩はAIにとって新たな時代を告げています。AIはもはや単なる研究テーマではなく、人々が現実世界の課題を解決するための実用的なツールとなり、様々な業界で輝かしい成果を上げています。そのため、企業はAIの影響を認識する必要があります。
AIの発展に直面し、企業は競争力を維持するために迅速な行動を取らなければなりません。長期的には、AIとの統合に失敗した企業はこの競争の波に乗り遅れ、最終的には消滅するでしょう。企業にとって最も重要なのは、AIの利点とコストを適切に管理し、開発計画にAIを組み込むための必要な対策を講じることです。今後数年間は、雨後の筍のように新興企業が次々と誕生し、ビジネス開発の黄金時代となるでしょう。 本稿は主にLLM(階層化モデリング)に焦点を当て、LLMとモデル関連技術の概要、そしてそれらの実用的な応用について解説します。実務家がLLMをビジネスにどのように適用するかを理解し、潜在的な投資家がこの分野を包括的に理解することで、より良い投資判断を下せるよう支援することを目的としています。本稿で提示するフレームワーク(様々なAI企業の分類など)はあらゆる生成AIに当てはまりますが、本稿では主にLLMを例として用います。
(この記事はOneFlowによって翻訳・承認されました。翻訳の転載許可についてはOneFlowにお問い合わせください。元記事:https://aigeneration.substack.com/p/ais-next-frontier-building-and-investing)AI分野では、業界の将来の方向性に影響を与える画期的な論文が頻繁に発表されています。法学修士(LLM)分野では、「Attention Is All You Need(注意がすべて)」がそのような論文の一つです。 2017年にGoogleチームによって公開されたこの記事では、Transformerと呼ばれるアーキテクチャが紹介されています。つまり、当時の最先端(SOTA)アーキテクチャと比較して、Transformerアーキテクチャは高い並列性と計算効率、そして超高性能を実現します。つまり、Transformerアーキテクチャを用いてトレーニングされたモデルは、より安価で高速であり、より高性能なモデルを生成することを意味します。この低コストと高効率の組み合わせは、パフォーマンスを損なうことなく、より多くのデータを活用し、より大規模なモデルをトレーニングすることを可能にするため、非常に重要です。 Transformer に触発されて、Generative Pre-trained Transformer (GPT) モデル、BERT、XLNet など、Transformer アーキテクチャに基づいたさまざまな有名な LLM が登場しました。 GPT (1.0) と BERT に関する論文は2018年に遡ります。XLNet に関する最初の論文は翌年 (2019年) に発表されました。しかし、LLM が世間の注目を集め、研究コミュニティ以外でも人気が出始めたのは、2022年末に OpenAI が ChatGPT をリリースしてからのことでした。 ChatGPTはリリースから1週間で100万人以上のユーザーを獲得しました。これほど急速な普及は非常に稀であり、これまでのほぼすべての技術製品を凌駕しています。画期的な成果には、長年にわたる献身的な努力が必要です。GPT-3.5をベースとするChatGPTは、近年のLLM分野における最も重要な成果です。その基盤となるモデルは最高のLLMモデルではありませんが、現在最も人気のあるモデルです。 いずれ分かるでしょう。ChatGPTの最も重要な点は、PoC(概念実証)としてLLMの機能を世界に示す点だと私たちは考えています。ChatGPTは当初非常に人気がありましたが、主流のLLMの一つとなり、実社会のユースケースで広く採用されるかどうかは不透明です。その理由は次のとおりです。基本的な大規模言語モデルは、膨大な量の公開テキストとデータ(例:Wikipedia、ニュース記事、Twitter、オンラインフォーラムなど)を用いて学習されます。学習データは幅広いトピックを網羅し、コンテンツも多様で、特定の分野やタスクに限定されるものではありません。これらのモデルには、GPT-3、Jurassic-1、Gopher、MT-NLGなどがあります。現在、基礎AIモデル(ChatGPTなど)を基盤としたアプリケーションは非常に人気がありますが、 LLMの真の価値を実現するには、ドメイン特化型またはタスク特化型のモデルが必要になると予想しています。これは、ドメイン特化型モデルは、それぞれのドメインにおいて、同サイズの基礎モデルよりも優れたパフォーマンスを発揮することが一般的であるためです。つまり、特定のドメインにおいて専用モデルと同等のパフォーマンスを実現するには、より大きな基礎モデル(推論コストとメモリフットプリントの増加も意味します)が必要になるということです。 ドメイン特化型モデルがベースモデルよりも優れたパフォーマンスを発揮する理由の一つは、モデルの整合性、つまりLLM出力がモデル利用者の目標や関心にどの程度合致しているかという点に関係しています。モデルの整合性が高いということは、回答が正しく関連性が高い、つまりモデルが要求する質問に正しく答えていることを意味します。ドメイン特化型モデルは特定のドメインまたはタスクにのみ焦点を当てているため、通常、ベースモデルと比較して整合性の度合いが高くなります。 モデルを特化するにはいくつかの方法がありますが、その1つは、ドメイン固有またはタスク固有のデータを使用してベースモデルをトレーニングすることです。たとえば、ベースモデルは一般的な銀行関連の質問にはうまく答えられるかもしれませんが、銀行業務に特化したチャットボットを構築するには、そのパフォーマンスレベルが不十分な可能性があります。この場合、銀行関連のデータセットを使用してモデルをトレーニングすることで、特化することができます。逆に、銀行が顧客サービスにチャットボットを適用して単純なタスクを自動化したい場合は、実際の顧客サービスの会話から得られた特定のデータを使用して、特化モデルをさらにトレーニングすることができます。このようにトレーニングすることで、LLMは特定の銀行が特定のポリシーに従ってどのように運営されているかを学習できます。銀行によってポリシーやガイドラインが異なる場合があるためです。 特化モデルは特定のタスク向けに設計されており、無関係なドメインやタスクには関与しないため、追加のトレーニングに大規模なベースモデルを使用する必要はありません。より小さなモデルを使用することで、推論コストとメモリ使用量を削減できます。つまり、利用可能な最大のモデルよりもはるかに小さなベースモデルが、特化ベースモデルとして最適な選択肢となる可能性があります。 LLMの機能と限界をより深く理解するには、まずそれらをどのように改善できるかを理解する必要があります。LLMの改善には、主に3つの原動力があります。アーキテクチャの改善、モデルの大規模化、そしてトレーニングデータの増加です。以下では、これらの側面についてそれぞれ詳しく説明します。アーキテクチャの改善が重要ですが、画期的な成果を達成するのは困難です。 アーキテクチャの改善(2017年のTransformersアーキテクチャなど)は、モデルの複雑さや学習データ量を増やすことなく、LLMのパフォーマンスを向上させることができます。現在構築されている最先端(SOTA)LLMのほとんどは、依然としてTransformersネットワークアーキテクチャ(2017年に導入されたアーキテクチャと非常に類似)に基づいています。既知の制限(自己注意による二次計算時間やメモリ複雑度など)があるにもかかわらず、現在のところ広く受け入れられているアーキテクチャのアップデートはありません。とはいえ、アーキテクチャの改善に向けた継続的な調査と試みが行われており、既知の制限を解消する、いわゆる効率的なTransformersの開発につながっています。 既存の最先端(SOTA)アーキテクチャ(効率的なTransformerなど)への漸進的な改善により、モデルのパフォーマンス限界は年々突破されていきます。さらに、業界では時折、モデルのパフォーマンスを飛躍的に向上させる画期的なアーキテクチャの改善(オリジナルのTransformerアーキテクチャなど)が見られるでしょう。 モデルアーキテクチャの改善は、モデルサイズや学習データ量の増加よりも困難です。モデルアーキテクチャの改善は従来の研究開発モデルを踏襲しており、大胆なイノベーションが求められ、結果が保証されるものではありません。そのため、LLMにおけるこのようなパフォーマンス向上は最も困難であり、段階的なアーキテクチャのアップグレードやブレークスルーをコミュニティにリリースして共有するための基準ともなっています。これは、先進的なモデルをいち早く導入することに加えて、LLMを構築する他社や競合他社に対する長期的な競争優位性として活用できないことを意味します。例えば、OpenAIのLLMは、2017年にGoogle Brainが発明・公開したTransformerをベースにしています。 LLMは従来の実践を改善します:モデルサイズの拡大現在、LLMの性能向上に向けた取り組みの多くは、モデルサイズの拡大に注力しています。2020年、OpenAIはモデルサイズの拡大とモデル性能向上の間にスケーリング則を提唱する論文を発表し、予算の大部分をモデルのスケールアップに割り当てるべきだと結論付けました。この論文は、モデルサイズの拡大というトレンドを直接的に促進しました。「機械学習モデルのサイズとパラメータギャップ」という論文から引用した以下の図は、近年の言語モデルサイズの大幅な増加傾向を示しています。 2019年以前は、LLMのパラメータ数は数億程度が主流でした。2019年には、OpenAIが15億パラメータのGPT-2をリリースしました。2020年には、GoogleとMicrosoftがそれぞれ110億パラメータと170億パラメータのT5とTuring NLGをリリースしました。2020年半ばには、OpenAIが1750億パラメータのGPT-3をリリースしました。その後も、AI21のJurassic-1(1780億パラメータ)、DeepMindのGopher(2800億パラメータ)、NvidiaとMicrosoftのMT-NLG(5300億パラメータ)、北京人工知能研究院のWuDao 2.0(1兆7500億パラメータ)など、大規模モデルが次々と登場しています。 LLMがモデルサイズを大きくすることでパフォーマンスを向上できる理由は、複雑な現実をモデル化するモデルの能力を高めるためです。Transformerアーキテクチャは、その速度と費用対効果の高さから、大規模モデルのトレーニングにおいて常に好まれてきました。しかし、同じ条件下では、モデルが大きくなると、トレーニングと推論のコストが増加し、メモリ使用量も増加するため、モデルをより大規模なハードウェアにデプロイする必要があります。したがって、予算とメモリが限られている場合、モデルサイズを盲目的に大きくすることは、モデルのパフォーマンスを向上させるための最良の選択肢ではありません。 モデルのパフォーマンス向上における学習データの重要性は、その質と量の両方において長らく過小評価されてきました。2022年、DeepMindチームはモデルサイズと学習データを比較した論文( https://arxiv.org/pdf/2203.15556.pdf )を発表し、ほとんどの言語モデルは著しく学習不足であると結論付けました。言い換えれば、モデルサイズを増やさずに、より大きなデータセットでモデルを学習させることで、大きなメリットが得られるということです。 論文の中で、DeepMindチームはChinchillaと呼ばれる比較的小規模なLLMを学習させました。Chinchillaはパラメータ数が700億個である一方、訓練トークン数は1兆4000億個です。訓練後、ChinchillaはGPT3、Gopher、Jurassic-1、MT-NLGといった、パラメータ数が1750億~5300億個である一方、訓練トークン数は2700億~3000億個である大規模な言語モデルよりも優れた性能を示しました(下表参照)。これは、モデルのパフォーマンスを向上させるには、より大規模な訓練データセットの獲得が不可欠であることを示しています。 さらに、強化学習を通じてより多くのデータを活用し、LLMのパフォーマンスを向上させることができます。2017年、 OpenAIは新しいクラスの強化学習アルゴリズムであるProximal Policy Optimization (PPO、 https://arxiv.org/pdf/1707.06347.pdf )をリリースしました。これは現在、業界における最先端(SOTA)アルゴリズムです。実際には、Proximal Policy Optimizationは操作が簡単で、そのパフォーマンスは他の代替手法に匹敵するか、場合によっては凌駕することもあります。 ChatGPTを支えるLLMは、人間によるフィードバックを用いた強化学習(RLHF)を用いて、以下の手順で微調整されています。まず、様々なプロンプトに対する人間の「理想的な」応答に関する教師あり学習データを用いて、LLMを微調整します。次に、LLMは各プロンプトに対して複数の回答を提供し、人間によってそれらの回答がランク付けされます(このランク付けは報酬モデルのトレーニングに使用されます)。最後に、LLMの報酬モデルは近似ポリシー最適化モデルを用いて最適化されます。強化学習は、より正確で公平かつ有益な回答を提供するようにモデルを導きます。つまり、現在のLLMははるかに強力になっています。 実際、これがOpenAIがChatGPTを「無料トライアル」としてリリースした主な理由の一つです(実質的にはデータの提供によって料金が発生します)。ChatGPTによって生成された各回答の横には「いいね」ボタンと「いいねしない」ボタンがあり、ユーザーはモデルの回答を評価できます。「いいね」と「いいねしない」のどちらの回答もダイアログボックスを開き、ユーザーは理想的な回答を入力できます。このデータは、強化学習の最初のステップに必要なデータです。
理論上、十分な資金と人材があれば、どの企業でも高品質なLLMを構築できます。しかし、テクノロジー大手は、特に強化学習部分において、トレーニングデータへのアクセスと管理が可能であり、モデルをさらに改善・微調整できるため、最も優れたLLMを構築する可能性が最も高いと予想されます。トレーニングデータは企業によって大きく異なります。Google、Microsoft、Meta、Amazon、Alibaba、Tencentなどの企業は、数十億人のユーザーに多様なサービスを提供しているため、LLMのトレーニングに必要な関連データを収集する革新的な方法を見つけることが可能です。 モデルサイズの増加と比較して、モデル性能を向上させるためにより多くのトレーニングデータを使用することは、推論コストの増加やモデル実行時のメモリ使用量の増加にはつながりません。しかし、これは他の課題も生み出します。その最大の課題は、数十億または数兆のトレーニングトークンを含むデータセットの健全な動作を確保することが困難であり、モデルにエラー、バイアス、有害コンテンツが含まれる可能性があります。強化学習はこれらの有害コンテンツをある程度相殺できる可能性がありますが、様々なドメインにわたるLLMの問題に対処することは困難です。これらの企業にとって、製品や差別化において人工知能がどの程度重要であるか、また、AI テクノロジー スタックのどの部分を主に運用しているかには大きな違いが見られます。 近年のジェネレーティブAIの波の中で、多くの企業が再び自らを「AI企業」と称しています。これらの企業にとって、製品におけるAIの重要性や差別化要因、そして開発中のAI技術スタックは、根本的な違いを生み出す可能性があります。これに基づき、私たちはこれらの企業をAIコア、AIイネーブラー、AIネイティブ、AIフィーチャード、AIパワードの5つのタイプに分類しています。 AI対応企業は、主にAI技術スタックの最下層で事業を展開し、AIモデル構築のためのインフラ、ツール、データサポートを提供します。一方、AIコア企業は、主にAIモデルの構築と販売を行っています。モデル構築プロセスにおいては、AI対応企業は、データ取得、モデルトレーニング、モデルエンジニアリング、モデルテストといったタスクを完了するためのサポートを提供します。 AIネイティブ企業とAI特化企業は、どちらもAIコア企業が提供するAIモデルを活用し、アプリケーション層で事業を展開しています。しかし、両者には重要な違いがあります。AIネイティブ企業の製品やサービスの中核的な価値はAIモデルの応用から生まれるのに対し、AI特化企業はAIモデルを活用して既存製品に新たな機能を追加します。一方、AIドリブン企業は、AI技術スタックの最上位層、つまりエンドユーザーが属する層を担っています。 1. AI 対応企業: AI モデルの構築に必要なインフラストラクチャ、ツール、データを提供します。 AI対応企業とは、AIモデルの構築に必要な技術を提供する企業です。生成AIモデルは膨大なパラメータセットを持つため、処理ワークロードを支える信頼性の高いインフラストラクチャの確保が不可欠です。さらに、モデル構築を支援するMLOpsツールも必要です。AI対応企業の中でも、トレーニングデータとデータ取得ツールを提供する企業は特に注目に値します。データはモデルのパフォーマンスと差別化を左右する重要な要素だからです。 LLM分野では、ほとんどのLLMプロジェクトがモデルのトレーニングとデプロイメントをクラウドサービスプロバイダーに大きく依存しています。3大クラウドサービスプロバイダー(Amazon AWS、Microsoft Azure、Google Cloud)はそれぞれ、この分野で大きな影響力を持つ複数のクライアントを抱えています。例えば、OpenAIはMicrosoft Azureプラットフォーム、DeepMindはGoogle Cloudプラットフォーム、そしてStability AIはAmazon AWSを主要なクラウドサービスプロバイダーとして選択しています。 LLMの台頭に伴い、クラウドサービスプロバイダーが提供するストレージおよびコンピューティングサービスの需要は絶えず増加しています。LLMの台頭を継続的なゴールドラッシュと捉えると、クラウドコンピューティングおよびストレージサービスプロバイダーはこの土地の所有者であり、人々はそこに群がる探鉱者と言えるでしょう。クラウドサービスプロバイダーは、コンピューティングおよびストレージの選ばれるプロバイダーとなるために、LLM開発者に可能な限り最高のサービスを提供するという賢明な決断を下すでしょう。 クラウドサービスプロバイダーは、例えば自社のクラウドマーケットプレイスを通じて製品やサービスを販売し、クラウド顧客によるこれらのモデルの利用を促進するなど、重要な流通チャネルとなるでしょう。先日、MicrosoftのCEOであるサティア・ナデラ氏は、Azure OpenAIサービスを通じてChatGPTモデルをユーザーに提供すると発表しました。今後、このような事例がさらに増えていくと予想されます。競争力のあるクラウドプロバイダーになるには、モデルのトレーニングと推論の速度とコストなど、いくつかの要素を考慮する必要があります。例えば、 Cerebras Systemsはディープラーニングアプリケーション向けのコンピューティングサービスの提供に注力しており、大規模言語モデルを含むディープラーニングアプリケーションのトレーニングと推論のコストを削減し、一般的な代替手段と比較してコンピューティング速度を最大10倍向上させることを目指しています。モデルのサイズ、アーキテクチャ、学習データ量の違いにより、学習コストは数千万ドルに達し、学習時間は数百日に及ぶこともあります。そのため、コストと時間の節約は、ディープラーニングの将来において依然として重要な要素となります。興味深いことに、一部のブロックチェーン企業(カナダのHut 8 Miningなど)が、自社のハードウェアをAIモデルの学習と推論に転用しているのが見られます。この変化は、この分野への新規参入を加速させると予想されます。 利便性と使いやすさも、クラウドサービスプロバイダーが考慮すべき重要な要素です。クラウドサービスプロバイダーは、基盤となるハードウェアを最適化することで、ユーザーが手動で多くの調整を行うことなく、一般的なディープラーニングモデルから特殊なディープラーニングモデル(大規模言語モデルなど)までを学習できます。 さらに、大規模言語モデルの学習には大規模なコンピューティングクラスターが必要であり、これらのクラスターのレンタルは通常複数年契約となるため、消費者にとって柔軟性に欠けます。そのため、より柔軟な短期レンタルオプションを提供することが、消費者にとってより魅力的です。 モデルのエンジニアリング、開発、テストのためのツール MLOps(機械学習運用)は、機械学習モデルをソフトウェア開発ライフサイクルに統合し、本番環境におけるモデルの高いパフォーマンスと信頼性を確保するための一連のプラクティスとプロセスです。LLM (モデリングによる学習)の場合、これにはモデルのエンジニアリング、開発、テストが含まれます。 モデルのエンジニアリングと開発フェーズでは、機械学習の研究者やエンジニアは通常、TensorFlowやPyTorchなどのライブラリやフレームワークを使用します。モデル開発が完了したら、デプロイ前にテストを行う必要があります。 他の機械学習モデルと同様に、LLMモデルは学習データから情報をエンコードし、推論フェーズでデコードします。しかし、学習データは主に人間の会話やテキストで構成されているため、バイアスが生じる可能性があります。Twitterデータで学習されたMicrosoftのTayチャットボットを覚えている方も多いでしょう。しかし、数時間後には、このチャットボットは人種差別的な発言をし始めました。 さらに、インターネットには膨大な量の誤情報が含まれており、私たちはそこからLLMモデルの学習データを大量に収集してきました。学習データの品質検証がなければ、モデルは誤情報や人間のバイアスの影響を受けやすくなる可能性があります。 現在、テキスト形式の非構造化データの品質と妥当性を監視・検証できる、スケーラブルで自動化されたエンタープライズエコシステムは存在しません。LLMサービスの普及に伴い、こうしたサービスの需要を満たすために、これらのタスクを自動化する手法が明らかに求められています。そのため、この分野には将来多くの可能性が期待されています。テキストデータの品質と妥当性を評価するために特別に設計されたLLMモデルが登場する可能性さえあります。 モデルテストに関しては、LLMの性能評価に広く受け入れられているベンチマークが数多く存在します。例えば、スタンフォード大学の研究者グループが提供している言語モデルの包括的評価(HELM)は、LLMの性能を評価するための包括的なベンチマークであり、精度、キャリブレーション、堅牢性、公平性、バイアス、有害性、効率性といった複数の指標を網羅しています。しかし、HELMは現実世界の言語モデル性能の全体像を完全に反映しているとは言えません。ベンチマークで良好なパフォーマンスを示すモデルが、現実世界のテストでは低いパフォーマンスを示す場合があることが、数多く報告されています。 OpenAIのプロダクトリードであるFrasher Kelton氏は、ブログ記事で、あるタスクでは優れたパフォーマンスを発揮するモデルが、別のタスクでは劣る場合があることを示す好例を示しました。さらに、実際のアプリケーションでは、精度、公平性、有害性といった指標に加えて、推論コストとレイテンシも重要な指標であり、他の指標と併せて評価・検討する必要があります。 これを踏まえ、ケルトンはより理想的なテスト方法を提案しました。それは、継続的な試行錯誤を通じてモデルが本番環境に適しているかどうかを判断するというものです。しかし、この方法は理想的ではありません。そのため、より包括的で信頼性の高いソリューションを提供する大企業がこの分野に複数登場する可能性もあります。 データ収集の最初のステップは通常、大規模なテキストデータセットを取得することです。初期データセットは通常、Hugging Faceなどのモデルハブにある無料のオープンデータソースから取得されます。これらのデータソースには、それぞれ数百万語、あるいは数十億語もの単語を含む数千のデータセットが含まれている場合があります。ユーザーの同意があれば、ウェブサイトやアプリケーションをクロールしてテキストデータを取得することもできます。興味深いデータソースとしては、Wikipedia、ブログ投稿、フォーラム、LinkedIn、Twitterなどが挙げられます。 LLMビルダーの多くは、無料かつオープンなデータソースに加えて、追加データを収集しています。ここでは、データアノテーション、合成データ生成、フィードバックループによるデータ収集という3つの主要なデータ収集戦略に焦点を当てます。 例えば、データアノテーション企業であるScale AIとLabelboxは、効率的なデータアノテーションツールを提供しています。さらに、無料のオープンソースツールであるLabelstudioもお勧めします。将来的には、アノテーション技術プロバイダーがLLM(ラベル管理モデル)を統合してユーザーにラベルを提供するようになると予測しています。これにより、ユーザーはラベルの確認と承認のみで済むため、実際にラベルを一から作成する必要がなくなります。最も時間のかかるアノテーションタスクが自動化されるため、アノテーションの効率が向上し、ラベル付けされたデータの量が飛躍的に増加するでしょう。 Labelstudio を使用すると、新しいデータに簡単にラベルを付けることができます。 合成データとは、人工的なデータを生成するプロセスを指します。最も一般的なユースケースは、プライバシー上の懸念から元の真正なデータを使用できない場合です。この場合、データを破棄するか、関心のある情報を保持したまま匿名化する巧妙な方法を考案するかのいずれかになります。後者を選択する場合は、合成データを使用する必要があります。MostlyとHazyは、この分野の2つの例です。 上記の「トレーニングデータの増加による競争」セクションで説明したように、人間のフィードバックに基づく強化学習は、モデルのパフォーマンスを大幅に向上させることができます。ただし、強化学習を実行するには、特定の種類のトレーニングデータが必要です。 例えば、最初のステップでは、様々なプロンプトに対して望ましい回答を提供する必要があります。このデータは使用するモデルとは独立しており、サードパーティのデータプロバイダーから提供できます。 次に、与えられたプロンプトに基づいて生成された様々な回答を人間がランク付けする必要があります。このステップは使用するモデルに依存しており、改善中の実際のモデルの回答をランク付けする担当者が必要です。そのため、将来的には、最初のステップに必要なデータセットを提供し、2番目のステップのコンサルティングサービスを提供する企業が登場する可能性があります。 さらに、こうしたトレーニングデータの収集と提供のプロセスを効率化するツールも登場するでしょう。この種のデータを大規模に収集したい場合は、データの収集と処理を簡素化するツールが必要になります。 例えば、Humanloopは、ユーザーからAIフィードバックを取得できるソフトウェア開発キットを提供しています。 これらのフィードバックループの具体的な例は、 ChatGPTとJasperで見ることができます。前述のように、ChatGPTでは、回答を生成する際にユーザーが「いいね!」または「嫌い」というフィードバックを提供できます。一方、Jasperはより詳細なフィードバックとオプションを提供し、ユーザーは「いいね!」、嫌い、お気に入りとしてマーク、削除、テキストの編集などを行うことができます。編集されたテキストは、理想的な回答の特徴を反映することができます。 Jasperai は複数のフィードバック ループを提供します。 AIカーネル企業は、大規模で実用的な言語モデルの構築と、それらの商業化を主な収益源とすることに注力しています。現在最もよく知られている企業はOpenAIですが、 AI21 、 Anthropic 、 Cohereなど、他にも多くの企業が存在します。OpenAI、Cohere、AI21のAPIテストプラットフォーム(プレイグラウンド)とその出力例については、以下をご覧ください。 APIテストプラットフォームOpenAI、Cohere、AI21の比較 AIカーネル企業は、モデルをクローズドソースにするかオープンソースにするかを選択できます。クローズドソース企業は通常、APIを使用してモデルを非公開にし、保護します。現在、クローズドソース企業は、API呼び出し回数に基づいて顧客に料金を請求するのが一般的です。 以下は、OpenAIによるGPT-3の価格設定のスクリーンショットです。API呼び出しのコストは、必要なモデルのパフォーマンスレベルによって異なります。高性能モデルを使用すると、より基本的なモデルを使用するよりも高価になります。さらに、様々なユースケースのレイテンシ要件を満たすために、推論速度にも違いがあります。つまり、実際のニーズに基づいて適切なLLMパフォーマンスレベルを選択し、関連するコストとパフォーマンスのバランスをとることができます。 Jasperのような企業は、AIカーネル企業が構築したクローズドソースのLLM上に製品全体を構築することから始めています。つまり、LLMに関する知的財産を実際に保有していないということです。これは、これらの企業が直面する主なリスクの一つです。モデルをコントロールできず、ニーズに合わせて改良を専門的に行うことができないからです。さらに、クローズドソースのモデルは、自社でホストできるオープンソースの代替モデルよりも高価になることが多いです。 オープンソースモデルのAIコアを開発する企業は、こうした懸念を抱いていません。LLMモデルコードを提供していても、多くの企業はLLMモデルを堅牢かつスケーラブルに展開・提供する能力に欠けています。そのため、オープンソースプロバイダーは通常、モデルホスティングサービスを通じて収益を上げています。現在、 Eleuther 、 Together 、 BigScience/Huggingfaceなど、オープンソースLLMモデルの構築に取り組んでいる組織がいくつかあります。特に、GoogleとMetaは多くのモデルをオープンソース化することを決定しました。現在、AIコア企業の多くは汎用的なベースモデルを提供しています。「ベースモデル vs. 特化モデル」セクションでの予測に基づくと、 LLMモデルの最大の価値は特化モデルから生まれるでしょう。したがって、AIカーネル企業(クローズドソースかオープンソースかを問わず)はベースモデルを提供でき、顧客は自社データを用いてこれらのモデルを学習させることで、特定の領域でより優れたパフォーマンスを発揮し、ニーズに合わせてカスタマイズされた特化モデルを取得できます。このサービスは、AIカーネル企業にとって重要な収益源となるでしょう。AIカーネル企業は、タンパク質構造に焦点を当てたAlphaFoldがその好例であり、より特化したモデルの提供もますます増えていくでしょう。 3. AIネイティブおよびAI特化型の企業は、優れたユーザーエクスペリエンスを備えたAIアプリケーションを作成します。 LLMモデルのユーザーのほとんどはAIの専門家ではないことに注意することが重要です。そのため、LLMモデル用のAPIを提供するだけでは、問題の解決には役立ちません。だからこそ、ユーザーエクスペリエンスが非常に重要なのです。 基本的なAIモデルが普及し、特化モデルの開発が容易になるにつれて(一部の企業の支援によりモデルの特化が加速し)、ユーザーエクスペリエンスの重要性はさらに高まります。そのため、ユーザーエクスペリエンスの違いはより深刻化していくでしょう。 Jasperの開発は、ユーザーエクスペリエンスの重要性を示す好例です。創業からわずか18ヶ月で、同社はシリーズAの資金調達ラウンドで1億2,500万ドルを調達し、評価額は15億ドルに達しました。当時、同社は10万人近くの有料顧客を獲得し、年間約7,500万ドルの収益を上げていました。 Jasperは当初、LLMモデルを独自に構築していませんでした。代わりに、OpenAIのGPT-3を基盤として活用し、そのAPIを用いてより優れたユーザーエクスペリエンスを備えたアプリケーションを開発することを選択しました。つまり、独自のLLMモデルを構築するよりも、使いやすく魅力的なアプリケーションの開発に重点を置いたのです。設計プロセスにおいては、いくつかの重要な課題を考慮しました。 GPT-3 API のプロンプト入力はどのようになるでしょうか? 出力はどのように提示すればよいでしょうか? 出力の提案はいくつ提示すればよいでしょうか? ユーザーのストレージとランキングのさまざまな代替手段は簡単に実装できますか? 这个工具如何融入文案撰写的整个工作流程中? 虽然Jasper.ai和竞争对手Copy.ai几乎是在同一时间使用OpenAI GPT-3 API构建其应用程序,但是Copy.ai在最终用户中的影响力远不如Jasper.ai。造成这种差异的因素可能有很多,其中用户体验是一个关键因素。 一个需要考虑的重要问题是:用户体验(UX)层与底层的LLM之间能有多大的独立性?在更改应用程序的底层LLM时,是否可以避免对用户体验产生负面影响?对于LLM的渐进改进(如使用更多数据进行训练,进行微调或专用化),用户体验层通常不会出现太多负面影响(相反,可能会产生积极效果)。 然而,对于LLM的重大变革,后果可能会更大。例如,大多数LLM目前只会从用户提示中获取信息并返回答案。因此,使用澄清问题来增加答案的相关性,将有助于提高模型的准确性。可以说,那些构建在LLM之上的公司正在创造出良好的用户体验来弥补底层模型的不足之处。 实际上,GPT-3不会询问澄清问题,也不能一直提供完美的答案。因此像Jasper这样的公司就应运而生,他们可以提供多个答案,并允许用户轻松修改答案并对其进行排名以弥补缺陷。然而,当缺陷直接在底层的LLM中被修复时,这些公司必须寻找其他方式在应用程序层面提供价值,以保持他们在行业中的竞争地位。 根据AI模型对产品价值主张的重要程度,我们可以将应用程序层面的公司分为两类:AI原生公司和AI特色公司。 AI原生公司(AI Natives)指的是那些价值主张完全基于应用AI模型(如LLM)的公司。这类公司自己不创建AI模型,而是利用商业版的GPT、Google T5和Anthropic以获得成本和性能方面的优势。前面提到的Jasper.ai和Elicit.org (该公司创建了一个UI,允许用户用自然语言浏览所有科学出版物的库)都属于这类公司。人们就AI原生公司的护城河展开了激烈的辩论,争议点在于:如果公司“仅”在他人AI模型的基础上提供拥有出色用户体验的UI,那么公司的业务护城河究竟如何? 假如ChatGPT已经存在,那么成立像Jasper.ai和copy.ai这样的公司又是否可行?无论答案如何,就目前情况而言,几个AI原生公司已迅速获得了大量客户,同时筹集到大量资金。有了资金保障,这些公司就能招募团队,自己构建基础模型,深入研究技术并实现真正拥有模型。速度和创新对于这类公司至关重要:虽然它们可以通过依赖他人的LLM迅速开启自己的事业,但也需要快速适应才能存活下来。 AI特色公司(AI Featured)将AI模型与现有产品相结合,以创建附加功能。对于这类公司而言,AI功能并不是其产品的核心(至少在最初是这样) 。 生产力工具Notion就是一个很好的例子。Notion本是一个记事工具,但最近添加了一个快捷方式,用于通过prompt生成文本(基本上是简单调用OpenAI的API)。虽然这不是Notion的核心功能,但对于其用户来说,却是一个很有价值的补充功能,因为这使得用户可以直接在Notion中生成文本,而不用在其他地方生成好再复制粘贴过来。Google Docs也利用AI模型来提供自动完成功能。虽然Google Docs的主要价值主张与自动完成功能无关,但该功能提高了用户的生产力,因而得到高度好评。Canva也是一样。Canva本是一个用于创建演示文稿的工具,但通过利用AI模型,演示文稿的文本和图形都可以根据用户的prompt和反馈来自动生成。 上述例子表明:用户体验是否出色对于AI模型的成功至关重要。那么如何利用LLM来提供出色的用户体验?关键点在于将AI模型深度集成到你想用LLM所解决任务的现有工作流程中。这也是目前这类公司中成功案例的标准做法。因此,预计将来还有很多AI特色公司都将成为各自领域的赢家。 话虽如此,但也有很多公司将AI功能集成到其产品后,并未给其用户带来多少额外价值。这些公司可能只是为了赶生成式AI的热潮。因此,区分哪些公司的AI特性能够真正提升用户价值十分重要。 AI驱动类的公司消费AI产品但不提供任何AI应用程序或AI模型。这是目前市面上数量最为庞大的群体,预计在不久的将来,所以公司都将成为AI驱动公司,其大多数产品和服务都将包含某种AI功能。这个过程一般需要两步: 第一步,公司内部某些员工会根据自己的需求来利用AI产品提高工作效率。例如,营销经理可能会使用Jasper或ChatGPT来编写文案,而客户主管则可以利用LLM为潜在客户定制电子邮件。 第二步,AI产品的利用方式更加系统化。此时AI产品的使用范围不再局限于公司内部个别员工,高层管理人员也开始使用AI来制定战略政策。公司也由此转型为“智能公司”。例如,BuzzFeed在裁员12%后,其首席执行官Jonah Peretti计划使用AI来编辑文章和协助商业运营操作。他预计AI的加入将会在短期内提升员工的生产力,并且在15年后,AI则能够自主生产内容并提供个性化服务。在该消息发出后的一个交易日内,BuzzFeed的股价就上涨了超150%。 AI能提高智能公司的自动化程度。上一个自动化时代主要围绕机器人流程自动化(RPA)展开,整个过程按照人类主导的基于规则的脚本来展开。而新时代的自动化一般将围绕生成式AI(Generative AI )来运作,尤其是LLM。 使用LLM时,我们能够超越基于规则的脚本,自动化更多异构任务,而不必给出明确指令。这些任务包括但不限于欺诈检测、简化客户服务任务、内容生成、会议转录、会议总结、法律文件分析等。 此外,LLM还将在构思、讨论、解决问题和决策过程等多方面提高公司员工的能力。这种能力也将自然地集成到公司使用的日常工具中,如Slack、Zoom和Notion。换言之,LLM能倾听对话并适时作出贡献。如果权限够大,LLM还能存储公司所有沟通内容,从而打破耗时且成本高昂的知识孤岛。 目前仍有许多公司尚不清楚生成式AI会对其未来发展带来多大影响。实际上,大多数公司都应该认真思考是否应该利用AI以及如何利用AI来提高生产力。因为在完善服务、提高质量以及控制成本方面,这可能就是拉开差距的地方。 虽然我们根据AI公司在技术栈的哪个部分集中投入最多来将其分类,但实际情况并不总是那么黑白分明。无论类别如何, AI公司通常都需要与整个技术栈进行互动和协作。 首先, AI赋能公司提供训练数据,AI内核公司用这些数据来训练LLM,然后AI原生或AI特色公司使用LLM来开发应用程序。 如上文所述,应用层的公司有大量机会来收集用户反馈数据,而这正是强化学习LLM所需的数据类型。换句话说,应用层的公司通常既是应用程序提供者,也是数据提供者。要拥有从数据到应用层的整个技术栈,它们唯一缺失的部分就是模型层。实际上,Jasper.ai最近宣布开始构建自己的LLM,这将使他们拥有从数据到应用层的整个价值链。 同样,OpenAI最开始在模型层,随着ChatGPT的推出,他们进入了应用层,通过收集人类反馈训练数据,他们现在已经能够进入数据层。换言之,他们也开始拥有整个AI技术栈的价值链。在未来,这样的例子将会越来越多。
希望这篇文章能使你对生成式AI和LLM有个大致了解。不过,我们现在仍处于这个新时代的早期阶段,未来几年的进展甚至会超过前几十年的的累积之和。以下是值得进一步探讨的八个问题: 1.生成式AI的淘金时代:继2022年高度关注Web3和加密货币后,投资者和企业家已经将重心大量转向了AI,尤其是生成式AI。现在已有大量资本进入该领域,这不由得使我们想起了2021年,心中自然而然生出一个问题:这会不会又是一场没有结果的炒作? 自1956年AI诞生以来,AI领域就一直担负着人类很高的期望。每当这些期望无法被满足时,AI就一次次进入了“寒冬”(指社会对该领域兴趣骤减且缺乏资金支持的时期)。但随着生成式AI的不断发展,这样的日子已经一去不复返了。在恰当用例上,AI可以提供巨大的价值。然而,由于一些投资者在不了解情况下盲目投资,导致估值虚高,因此该领域可能会出现过热现象。话虽如此,我们始终坚信AI的黄金时代已然到来。 2.智能组织和增强员工生产力:如上所述,AI驱动公司将使用AI增强来实现任务自动化和改善决策能力,以此来提高生产力。有研究报告指出:Github Copilot可以使开发速度提高55%,这意味着通过利用AI模型,开发人员的生产力将显着提高。这很可能只是个开始,LLM在代码生成方面会变得越来越好,甚至开发人员可能进入无代码时代。 就其他领域而言,比如法律、市场营销、销售、客户服务,也有望以类似的方法提高生产力。最终每个行业中的每个公司都将思考:这对我们意味着什么?在这场革命中,每个公司只能选择加入或者被加入。 3.专用模型的崛起:预计大部分价值将来自于专业模型而非基础模型。因此,未来我们将会看到越来越多的专用模型,比如用于银行客户服务的模型就不需知道如何以说唱风写诗歌,而且还可以为个人任务或所属领域而打造更小的专属模型。我们预测:实际上对于像OpenAI、AI21和Cohere这样的AI内核公司来说,开发出能让客户在他们基础模型上轻松创造出专业化模型的功能至关重要,因为所有人都在期待该功能,以解锁LLM的下一个价值级别(next level of value) 。 除了通过专用模型实现卓越性能外,应用层的公司还将获得一种私有模型,使得这类公司不仅是建立在基础AI模型(每个人都可访问)之上的不错UX。 4.多模态模型:虽然本文主要关注语言模型和文本数据,但生成式AI 还包含其他模态,例如图像和声音。近来,人们正努力将不同模式组合到AI模型中,打造具备多模态输入输出能力的模型。最近,Google Research团队发表了一篇论文( https://arxiv.org/pdf/2301.11325.pdf ),展示了如何将文本转化成音乐。这种模型本身就很强大,有了这种模型,没有音乐背景的人能够通过自然语言描述,生成音乐。
但试想一下,如果我们将这种模型与图像转文本能力相结合,会怎么样呢?这意味着我们可以利用AI分析视频内容,生成描述性本文,最后由AI配上合适的音乐。另外,我们还可以反过来操作,如果已经根据文字提示生成了音乐,现在我们还可以用AI来生成相应视频。要做到以上这些,我们只需要向多模态模型发出一条指令。 黄仁勋是英伟达的创始人兼首席执行官,他曾于2023年1月访问瑞典,在那期间,我们曾与他讨论英伟达在生成式人工智能领域的重点。他提到英伟达不再像以前一样聚焦于单一模式,例如MT-NLG,而是致力于构建多模态模型。 5.人类反馈的强化学习(RLHF)的重要性:尽管人类反馈强化学习已出现多年,但还说不准它会对LLM的性能产生怎样的影响。 我们推测,与GPT3相比,GPT4在初始训练数据和强化学习数据增加的情况下,其性能将获得跨越式提升。由于ChatGPT的普及,OpenAI为强化学习积累到了前所未有的海量数据。虽然初始训练数据与强化学习的人类反馈数据之间的相对重要性还未可知,但我们认为,强化学习很有可能就是GPT-4的秘密武器。 6.扩展的重要性:如上所述,应用层公司可以收集相关的人类反馈进行强化学习。如果上面第五点关于人类反馈数据重要性的预测是正确的,那么拥有大量消费者的应用公司将能够聚集海量专有、关键数据,以改进模型。考虑到微软与OpenAI的合作伙伴关系,在这场由AI主导的竞赛中,其它媒体都认为微软会是注定的赢家,但我们不能忽略Meta、谷歌、苹果、亚马逊、阿里巴巴和微信等公司,因为他们拥有大型面向客户的应用程序。要记住,数据才是改进大型语言模型唯一真正有效的替代方案,因为模型规模和框架都可以被复制(根据一些研究文章)。 7.更多的公司将成为数据公司:因为训练LLM需要大量的对话数据,所以那些能够大规模收集此类数据的公司将受到高度重视。比如Twitter,它收集了最大的对话数据集之一。ChatGPT背后的模型就是在Twitter数据上进行训练的,但Elon Musk知道后立即叫停了这类训练。也许未来Twitter的大部分收入将来自于出售对话数据访问权? Meta拥有Facebook、Instagram 和Whatsapp,是另一家可以访问大量对话数据的企业,试想一下,如果Meta的对话数据成为一项独立业务,会产生多么大的价值呢? 8.公众舆论和监管的焦点仍在于AI伦理及其社会影响:版权问题、模型可信度、劳工问题和网络安全等话题已引发激烈辩论,甚至可能引起监管机构的注意。公司应谨慎应对监管环境。现在已经有许多法规示例即将出台,例如欧盟AI法案和中国禁止创建无水印的AI生成媒体。目前的监管还处于不确定时期,在此之前,希望每个人都贡献一份自己的力量,在AI应用中保持公平正义。 |