|
ChatGPT の大成功を受けて、OpenAI は次の目標である AI エージェントへと進んでいます。 「論文で異なる学習方法が提案されると、OpenAIはそれを既にやっていると考えて嘲笑します。しかし、AIエージェントに関する新しい論文が発表されると、私たちは真剣に、そして熱心に議論します。AIエージェントの構築に関しては、一般の人々、起業家、そしてオタクはOpenAIのような企業よりも有利です」と、OpenAIの共同創設者であり、Tesla AIの元ディレクターであるアンドレイ・カルパシー氏は述べています。 カルパシー氏の公の発言は、AIエージェントに大きな注目を集めました。しかし、彼の評価は彼独自のものではありません。 3月にAutoGPTはGitHubで74,000個のスターを獲得し、スター数で史上最速の成長を遂げたオープンソースプロジェクトとなりました。その後、BabyAGIやAgentGPTといったリリースが雨後の筍のように次々と登場し、ピザの注文、メールの整理、ブログの作成、さらにはバレンタインデーのパーティーの開催まで、様々な用途に利用されています。 人々の生活のさまざまな側面に AI エージェントがどんどん登場し、その熱狂はシリコンバレーから急速に広がっています。 AIエージェントは、自律的な実行と独立した運用を特徴としており、技術者から「社会を変革する生産性ツール」として大きな期待を集めています。中には「汎用人工知能(AGI)時代の幕開け」と捉える声さえあります。 しかし、国民の抗議によって既存の問題を隠すことはできない。 「AIエージェントには大規模モデルが必須です。十分に優れたハードウェア基盤があって初めて、AIエージェントを開発できるのです」と、ZhenFundのマネージングパートナーである戴宇森氏はJiazi Guangnianに語った。 厳密に言えば、ChatGPTは市場で唯一「認定された」大規模モデルプラットフォームです。モデルの計算能力の限界により、中国にはAIエージェントの開発に適した環境が未だに不足しています。 未来は明るいが、現実は厳しい。技術研究開発もベンチャーキャピタルも、流動的な状況にある。大規模モデルの波が押し寄せ、AIエージェントの黄金時代がいつ到来するのかは誰にも分からない。しかし確かなのは、変化はすでに静かに始まっているということだ。 1. AIエージェント:タスクを手伝ってくれる「デジタルアシスタント」 AI エージェントを ChatGPT のアップグレード版として見るのではなく、人間のための「デジタル アシスタント」として考える方が適切でしょう。 AIエージェントは「やり方」を教えるだけでなく、「実行を手助け」します。AIエージェントは、人間に代わってGPTなどの大規模言語モデル(LLM)と繰り返し対話し、媒介として機能します。目標が与えられると、AIエージェントは知的な行動をシミュレートし、自律的にタスクを作成し、タスクリストの優先順位を変更し、主要なタスクを完了し、目標が達成されるまでこれを繰り返します。 従来の人工知能とは異なり、AIエージェントは人間の制御なしに独立して動作できます。APIに接続することで、AIエージェントはWebページの閲覧、アプリケーションの使用、ファイルの読み書き、クレジットカード決済など、さまざまな機能を実行できます。 簡単に言えば、AIエージェントは目標を与えるだけで、あとはAIがやってくれるのです。例えば、HyperWriteのAIエージェントは、Chromeブラウザのコントロールプログラムを使って自動的にピザを注文してくれます。 画像出典: HyperWrite CEO Matt ShumerのTwitterアカウント こうした想像力はSF映画に盛り込むのは難しくありませんが、人工知能の探求の歴史においては、ほぼ半世紀にわたって続いてきました。 1980年代初頭から、コンピュータ科学者たちは人間のように対話できるインテリジェントソフトウェアの開発方法を模索し始めました。しかし、データと計算能力の限界により、AIエージェントには現実世界で必要な条件が欠けていました。 スタンフォード大学でコンピュータサイエンスの博士号を取得したジュン・パーク氏はインタビューで、「私たちは長い間その方向に取り組んできましたが、ここ数十年間に用いてきた方法はどれも、LLMで現在達成している成果に近づくことすらできませんでした。だからこそ、私たちはそのビジョンを忘れてしまったのです。しかし、LLMが登場したことで、チャンスが到来したことに気づきました」と述べています。 大規模言語モデルはAIエージェントの中核を成すものです。複雑なタスクを細分化することで、複雑なユーザーニーズを達成可能なタスクメソッドへと分解することができます。 一方、大規模モデルのトレーニングはインターネットに基づいており、信頼できる AI エージェントを構築するための重要な要素となる大量の人間の行動データが含まれています。 一方、大規模なモデルは、相当な知識容量を備え、優れたコンテキスト学習能力と推論能力を発揮します。モデル内で継続的な思考と意思決定を可能にする思考チェーンを構築することで、AIエージェントは複雑な問題を分析し、より単純で詳細なサブタスクに分解することができます。 同時に、言語を媒体とするLLMは、フロントエンドインタラクションの形態も変革しました。BV百度ベンチャーズのAI応用トラック責任者兼投資担当副社長である温勇騰氏は、「嘉子光年」に次のように語っています。「BV百度ベンチャーズは長年にわたりAIエージェントの開発に注目してきました。分析を通して、従来のグラフィカルユーザーインターフェース(GUI)が言語ユーザーインターフェース(LanguageUI)へと進化する可能性があると考えています。AIエージェントのフロントエンドアプリケーションは、人間とインタラクションするあらゆるフロントエンド形態に存在するでしょう。」 タスクを単純に分解するだけでは、インテリジェントとは言えません。LLM によって駆動される AI エージェントは、次の 3 つの主要コンポーネントに依存しています。 計画には、大きなタスクをより小さく管理しやすいサブ目標に分割し、それらを検討して改善し、過去の行動を分析、要約、改善して知性と適応性を向上させ、最終的な結果の質を高めることが含まれます。 記憶: 短期記憶は文脈学習に使用され、長期記憶は長期間にわたって無制限の情報の保存と取得を行う能力で、通常は外部保存と迅速な取得によって実現されます。 ツールの使用: モデルの重みから不足している追加情報を取得するために外部 API を呼び出す方法を学習できます。 LLM駆動型AIエージェントシステムの概要 画像出典:リリアン・ウェンの個人ブログ 3 つのコンポーネントが連携することで、AI エージェントは人間のように考えるだけでなく、人間のように行動することもできます。 人間と同様に、複雑なタスクを実行する際には、各ステップの間に推論プロセスが介在することがよくあります。AIエージェントはReActコンポーネント(推論と行動)も活用し、大規模モデルの推論能力と行動意思決定を緊密に統合することで、言語モデルが知識に基づいて論理的な計画を立てられるようになります。 Reflexitionフレームワークは、AIエージェントに自身の行動を動的に記憶し、反映する能力を提供します。重みの更新ではなく言語フィードバックを通じて言語エージェントを強化することで、過去の意思決定を改善し、過去の誤りを修正し、パフォーマンスを継続的に向上させることができます。 AI エージェントは、情報の取得、保存、保持、検索のプロセスにおいて、人間の記憶の構造を模倣し、効率的な記憶システムを構築しようと努めています。 AIエージェントは人間の記憶を模倣することで、感覚記憶、短期記憶、長期記憶をそれぞれ、元の入力(テキスト、画像など)の学習済み埋め込み、文脈学習、外部ベクトルストレージとして表現します。タスクと結果はメモリモジュールに保存されます。情報が取り出されると、メモリに保存された情報がユーザーとの会話に再び利用され、より密接な文脈環境が構築されます。 人間の最も顕著な特徴の一つは、道具を使い、創造する能力です。外部ツールを装備し、APIを用いて様々なインターフェースを呼び出すことで、AIエージェントは人間の道具の使用をシミュレートし、より複雑なタスクを達成することができます。 この技術はまだ完全に成熟しておらず、データ管理や長期記憶などの問題はまだ解決中ですが、自律的に実行し、反復的に最適化し、「手を解放する」ことができる AI エージェントの能力は、その人気を必然的なものにしています。 2. LLM に代わる AI エージェントが AI の次のホットな話題になります。 ChatGPTの開発により、AIは人間と複数ターンの会話を行い、情報や提案を提供できるようになりました。Copilotの導入により、AIは人間に代わって初期ドラフトを作成できるようになりました。例えば、Github Copilot、Microsoft 365 Copilot、Midjourneyは、それぞれプログラミング、オフィスワーク、画像生成において「インテリジェントな副操縦士」となっています。 AIにタスクを指示すれば、AIはそれを実行します。例えば、原稿を書いたり、質問に答えたり、人間の目には本物と見分けがつかないような写真を生成したりといった作業です。しかし同時に、AIが行う各ステップに対して、人間が具体的かつ明確な指示を与える必要がある場合も少なくありません。 この時点で、AIは経験不足の新人のようなものであり、実践的なトレーニングが必要です。しかし、指示に従い、自主的に問題を解決し、他人に迷惑をかけない優秀な従業員を求めていたとしたらどうでしょうか? 3月と4月には、Camel、AutoGPT、BabyAGI、Westworld Townなど、いくつかのAIエージェントが登場し、人々にそのような開発の可能性を示したようです。 Significant Gravitas が 3 月に AutoGPT をオープンソース化して以来、AutoGPT は 2 か月足らずで GitHub で 130,000 個のスターを獲得し、史上最も急速に成長しているオープンソース プロジェクトとなりました。 スタンフォード大学のウエストワールドタウン 画像出典: 論文「ジェネレーティブエージェント: 人間の行動のインタラクティブなシミュラクラ」 Andrej Karpathy氏はかつて「プロンプトエンジニアリングの次のフロンティアはAutoGPTだ」とツイートしました。現在までに、AutoGPTはGitHubで14万以上のスターを獲得し、歴代25位にランクされています。 OpenAI の共同創設者兼 CEO であるサム・アルトマン氏は、大規模な AI モデルを構築する時代は終わり、インテリジェントエージェントこそが真の課題であると何度も述べています。 データマーケティングプラットフォームプロバイダーであるOctane AIの共同創業者兼CEOであるマット・シュリヒト氏は、自律型知能エージェントを紹介する記事の中で、産業界、学界、投資界など100人以上の関係者から意見を集めました。Meta、Nvidia、Stability AIといった大企業の専門家に加え、AIスタートアップ企業、スタンフォード大学のコンピューターサイエンスの教員、Hugging FaceをはじめとするAI投資家も含まれていました。大多数の関係者がAIエージェントの可能性に対する期待とビジョンを表明し、「元祖AGI」とさえ称えていました。 大規模モデルに続いて、AI エージェントが AI の次のホットな話題になりそうです。 しかし同時に、反対の声も聞かれた。 チューリング賞受賞者のヨシュア・ベンジオ氏は、今年5月に公開したブログ記事「人類に起こるAIの変遷」の中で、人間はAIエージェントの全体的なタスクと目標を制御できるものの、AIエージェントが自身の知能を用いて分解するサブタスクやサブ目標を制御できるわけではないと述べています。AIアライメント研究に画期的な進歩がない限り、人間は強力なセキュリティ保証を得ることはできないでしょう。 インテリジェント エージェントの出現、業界リーダーからの賞賛と懐疑的な見方により、AI エージェントは急速かつ強力に成長しました。 しかし、AI エージェントは人工知能の分野では新しい用語ではありません。 2014年、DeepMindは囲碁AI「AlphaGo」を発表しました。これは実際にはAIエージェントの一種です。同様に、OpenAIは2017年にDota 2をプレイするための「OpenAI Five」を発表し、DeepMindは2019年にStarCraft 2をプレイするための「AlphaStar」を発表しました。 当時の業界の主流は、強化学習を用いてAIエージェントを訓練・改良することであり、主にゲームシナリオ、特に勝敗が明確な競技ゲームを対象としていました。しかし、現実世界への汎用的な適用性は未だに疑問視されていました。 その後数年間、OpenAIは大規模言語モデルに重点を移し、GPTシリーズが次々とリリースされました。大規模モデルは様々なテクノロジー企業が参入する分野となり、AIエージェントがボトルネックを突破し、再び発展するきっかけとなったのです。 数年前はゲームシナリオに限定されていたAIエージェントですが、大規模モデルではどのような成果を上げることができるのでしょうか?BV Baidu VenturesのAI応用トラック責任者兼投資担当副社長である温勇騰氏は、「Jiazi Guangnian」誌に次のように語っています。「私たちが目にしているのは、技術の進歩によってAIがユーザーの意図を理解し、情報を収集し、タスクを実行する能力が大幅に向上しただけでなく、さらに重要なのは、AIエージェントが将来のアプリケーションエコシステムを完全に再形成できるということです。」 AutoGPTはリリース後まもなく、自動パーソナルアシスタントの構築に広く利用されています。例えば、FirstSales.ioの創設者兼CEOであるUdit Goenka氏は、昨年シード資金を調達した企業を検索し、作成されたリストの詳細を記述できる検索エンジンをAutoGPTを使用して構築したと投稿しています。 Google のソフトウェア エンジニアである Yew Jin Lim 氏は、AutoGPT を使用して電子メール アシスタントを作成し、タスクの詳細を AI エージェントに電子メールで送信したと述べています。 ZhenFundのマネージングパートナーである戴宇森氏は「Jiazi Guangnian」に次のように語った。「エージェントは、生産性を真に大幅に向上させることができる方向性です。なぜなら、依然として人が物事を行うのであれば、人は常に限界があるからです。」 「AIエージェントは、日常生活や仕事における生産性向上ツールとなるでしょう」とマット・シュリヒト氏は記しています。「ソーシャルメディアアカウントの管理や市場への投資から、最高の児童書の出版まで、AIエージェントはあらゆる業界、あらゆるタスクに浸透するでしょう。」例えば、aomniは、オンラインであらゆるトピックに関する情報を検索し、リストを作成することでユーザーの目標達成を一つずつ支援するAIエージェントです。 Inflection AI のパーソナル AI エージェント Pi は、生産性のニーズ以外にも、別の潜在的な応用分野を提供します。 ChatGPTやClaudeが汎用人工知能に重点を置いているのとは異なり、Piは高い感情知能、感情的な仲間意識、そして感情的な価値の提供を重視しています。Piはユーザーとの過去の会話を記憶し、人々の仕事や生活に参加・支援するだけでなく、友人や家族とつながり、人間関係を築く方法を学習します。現在、Inflection AIは15億ドル以上の投資を受けており、Anthropicを上回り、OpenAIに次ぐ規模となっています。 3. AI エージェントは次の大きなものになるでしょうか? 「一種のJARVISを作っています」と、アンドレイ・カルパシーの最新のTwitterプロフィールには書かれている。JARVISはマーベルのスーパーヒーロー、アイアンマンのAIアシスタントで、独立した思考力を持ち、様々なタスクや計算で所有者を支援する。 Karpathy の登場は、AI エージェント レースのスタートの号砲が鳴ったことも意味します。 The Informationによると、サム・アルトマン氏は5月に一部の開発者に対し、OpenAIがChatGPTを個人用作業アシスタントとして開発したいと考えていることを非公式に伝えたという。また、情報筋によると、OpenAIはチャットボットを用いて自律型AIエージェントを開発する方法を検討しており、この機能がChatGPTアシスタントに搭載される可能性が非常に高いという。 偶然にも、Meta は AI エージェントにもチャンスを見出しました。 4月にザッカーバーグ氏は投資家に対し、Metaは「AIエージェントを何十億もの人々に有益かつ有意義な方法で紹介する」機会を見出していると語っていたが、当時は具体的な用途については言及していなかった。 ザッカーバーグ氏は6月に行われた全社員会議で、開発段階の異なる一連の技術を発表した。その一つは、最初は主にメッセンジャーとWhatsApp向けに、支援や娯楽を提供するために、異なる性格や能力を持つAIエージェントを導入することだ。 国内でもAIエージェント関連の製品が続々と登場しています。 7月初旬のWAICイベントで、アリババクラウドは開発者コミュニティをターゲットにした初のインテリジェントエージェント「ModelScopeGPT」を発表し、今後はさまざまなアプリケーションシナリオに対応するために一連のインテリジェントエージェントを発表する予定です。 Huaweiもこの分野に携わっていますが、大型モデルとロボットを組み合わせた具現化AIに重点を置いています。 大企業だけでなく、AIエージェントは起業家にもチャンスをもたらします。OpenAIの共同創設者であるカルパシー氏は、以前の講演で「AIエージェントの構築において、一般の人々、起業家、そしてオタクはOpenAIのような企業よりも有利です」と具体的に述べました。 BV Baidu VenturesのAI応用トラックの責任者であり、投資担当副社長であるWen Yongteng氏は、BVチームは現在、AIエージェントの分野におけるスタートアップのチャンスについて楽観的であると語った。 将来のアプリケーションエコシステムは、単一の巨大企業による支配ではなく、多様化していくでしょう。AIエージェントの出現はパラダイムシフトをもたらし、多くの従来型アプリケーションは破壊され、変革される可能性があります。このプロセスにおいて、スタートアップ企業は新たな分野を開拓する多くの機会を得ています。AIエージェントは、それぞれのタスクにおいて、特定のアルゴリズムやサービスの構築、ユーザーデータ、製品設計など、最適化の余地が大きく、スタートアップ企業が差別化できる優位性を築くことができる領域です。 さらに、現在のAIエージェントのエコシステムはまだ明確に定義されていないため、スタートアップは既存のルールの下で競争する必要がないため、有利な開発機会を提供しています。この観点から、スタートアップと大企業は同じスタートラインに立っており、スタートアップはより柔軟で、製品を迅速に調整することができます。 BV Baidu Venturesは、人工知能分野における長年の経験に基づき、モデル企業がアプリケーション層のビジネス機会を独占するとは考えていません。基盤となるモデル企業にとって、特定のアプリケーションを独占することよりも、エコシステムの構築がはるかに重要です。これらの企業がアプリケーション層における競争優位性を獲得するために独占戦略を採用した場合、自社のエコシステムに悪影響を与える可能性があります。基盤となるモデル企業は、注力する1つか2つの分野で強力なAIエージェントを構築するかもしれませんが、あらゆる分野でスタートアップ企業と競争する必要はありません。 定義されていないエコシステムとルールがまだ確立されていないアリーナでは、誰もが同じスタートラインに戻っています。 しかし、これまでのところ、数多くのデモンストレーションを除けば、AI エージェントの実際の製品は登場していないことは否定できません。 ZhenFundのマネージングパートナーである戴宇森氏は、AIと人間の連携レベルを自動運転の段階に例え、AIエージェントをレベル4の自動運転に例えました。しかし、レベル4と同様に、AIエージェントは想像や実証は容易ですが、実装は難しく、真の応用は未だ不透明です。 AIと人間の連携の度合いを自動運転のさまざまな段階に例える 画像出典:大郵船ジケアカウント @yusen 戴有森氏は、実用的なAIエージェントを実現するには、大規模モデルの能力を大幅に向上させる必要があると強調した。トップレベルにあるOpenAIでさえ、レイテンシとパフォーマンスの改善には依然として大きな余地がある。 蒸気機関に例えると、蒸気を発生させるには水を100℃まで加熱する必要があります。AIエージェントの知能が一定レベルに達しておらず、水を50℃までしか加熱できない場合、たとえ多くのエネルギーを投入しても蒸気は生成されず、0のままです。 AIエージェントレースのスタートの号砲が鳴り響きましたが、これは数ヶ月で終わる短距離走ではありません。数年、あるいは10年にも及ぶマラソンです。 |