HUOXIU

大規模モデルベースのインテリジェントエージェントは AI アプリケーションに革命をもたらしています。

出典:Financial IT Matters

2023年には大規模モデル(LLM)が市場を席巻し、大きな話題となりましたが、実用化には多くの課題が残っていました。AIエージェントの登場により、これらの課題は効果的に解決され、AIの応用は破壊的な変化を遂げ、企業や個人の働き方に変化をもたらし、大幅な効率向上をもたらすでしょう。

01 大規模モデル適用のジレンマ

2023年、大規模モデルの性能は皆を驚かせ、汎用人工知能(AGI)の到来が間近に迫っていると感じさせました。AGIの人気は誰もが話題にするほどに高まり、AI技術の応用に対する新たな熱狂の波も巻き起こしました。

大規模モデルと人間とのインタラクションは、 プロンプトを通じて実現されます プロンプトの明瞭さと明示性は、モデルのパフォーマンスに直接影響します。プロンプトにパラメータを追加することで、プロンプトテンプレートを作成できます。そして、これらのプロンプトテンプレートを用いて、大規模モデルにユーザー入力を提供します。

しかし、大規模モデルは実用化において、長期的な対話のサポート不足、業界特有のコンテンツへの対応不足、推論能力の不足、低い安定性、古いデータ、さらには錯覚など、数々の課題に直面しています。これらの問題は大規模モデルの実用化を制限しており、それらに対処するための新たな技術が求められています。

これらの課題に対処し、より複雑なアプリケーションシナリオで大規模モデルを活用できるようにするため、AIコミュニティは広範な研究を行ってきました。今年前半は、カンファレンスではLangChainなどのツールに焦点が当てられていました。後半には、 AIエージェントに焦点が移り、大規模モデルの急速な発展が示されました。

02 チェーン: 大規模モデルによる複雑なアプリケーションのサポート

LangChainは「コンポーネント」と「チェーン」を提供することが特徴です。

コンポーネントとは、明確に定義された機能と目的を持つユニットです。コンポーネントには、 LLM モデルラッパー、チャットモデルラッパー、そしてデータ拡張に関連する一連のツールとインターフェースが含まれます。これらのコンポーネントはLangChainの中核であり、データ処理パイプラインにおけるワークステーションとして捉えられ、特定のデータ処理タスクを実行します

LangChainは様々なコンポーネントを「チェーン」で接続し、プログラムの実行環境内でのシームレスな統合と効率的な呼び出しを実現します。チェーンにより、プロンプトワードテンプレートを用いて大規模モデルへの一連の呼び出しを作成でき、ある呼び出しの出力を別の呼び出しの入力として利用できます。さらに、ステップ間にロジックを追加することも可能です。例えば、LangChainで最もよく使用されるチェーンであるLLMChainは、LLMモデルラッパーとメモリコンポーネントを統合し、チャットボットに「メモリ」を提供します。

チェーンベースのアプローチは、大規模モデルの複雑な適用を可能にしますが、タスク処理に必要なステップにはプログラミングが必要です。一方、インテリジェントエージェントは、タスクステップを自律的に分解し、与えられた目的を達成することができます。

03 インテリジェントエージェントとは何ですか?

インテリジェントエージェントとは、人工知能エージェントのことを指します。これは、環境を認識し、自律的に理解し、意思決定を行い、行動を実行できる知的な存在です。AIエージェントは、与えられた目標を段階的に達成するために、自律的に思考し、ツールを活用する能力を備えています。単一の目標のみを与えられた場合、AIエージェントは自律的に思考し、タスクを完了することができます。

インテリジェントエージェントとは、本質的には、目標に応じて計画を立て、タスクをステップに分解できる高レベルのチェーンです。AIエージェントは、Web検索、ファイルシステムへのアクセス、APIなど、さまざまなツールを使用して外部リソースにアクセスできます。

04 インテリジェントエージェント:AIが人間のように行動できるようにする

人間は脳、五感、そして四肢を持っています。五感は周囲の環境を知覚し、脳は思考、計画、意思決定を担い、四肢はそれらの意思決定を実行する役割を担っています。人間と同様に、インテリジェントエージェントは主に脳、知覚、行動という3つの主要な部分で構成されています

:脳は主に大規模な言語モデルで構成されています。知識や記憶を保存するだけでなく、情報処理や意思決定といった機能も担っています。また、推論や計画のプロセスを提示し、未知のタスクにもうまく対処することができます。

知覚: 知覚モジュールの主な目的は、エージェントの知覚空間を、純粋なテキスト領域から、テキスト、聴覚、視覚モードを含むマルチモーダル領域に拡張することです。

アクション: エージェントの構築プロセス中に、アクション モジュールはブレイン モジュールから送信されたアクション シーケンスを受信し、環境と対話するアクションを実行します。

05 インテリジェントエージェントシステムアーキテクチャ

大規模モデルベースのインテリジェントエージェントシステムは、大規模モデル(LLM)、メモリ、プランニング、およびツールのセットに分解できます。大規模モデルベースのインテリジェントエージェントシステムでは、大規模モデルがシステムの頭脳として機能し、計算を担い、他のコンポーネントからの支援を必要とします。

1. 計画

(1) 複雑なタスクでより多くのステップを必要とする場合、エージェントは大規模モデルを呼び出し、思考連鎖(COT)機能を通じてタスクを分解することができます。エージェントアーキテクチャでは、タスクの分解と計画は大規模モデルの機能に基づいています。大規模モデルの思考連鎖(COT)機能は、モデルに段階的に思考を促し、大規模なタスクをより小さく管理しやすいサブゴールに分解することで、複雑なタスクを効率的に処理します。

(2)反省と内省の枠組みを通して、エージェントはタスク計画能力を継続的に向上させることができます。エージェントは過去の行動を自己批判・反省し、失敗から学び、将来の行動を分析・要約・改良・改善することで、最終結果の質を向上させることができます。内省の枠組みにより、エージェントは過去の決定を修正し、継続的に最適化することができます。この反省と改良は、エージェントの知性と適応性を向上させるのに役立ちます。

2. 記憶

(1) 短期記憶:エージェントシステムへのすべての入力はシステムの短期記憶となり、すべてのコンテキスト学習はモデルの短期記憶能力に依存します。短期記憶は有限のコンテキストウィンドウの長さによって制限され、モデルによってコンテキストウィンドウの制限は異なります。

(2) 長期記憶:エージェントが目標を達成するために外部ベクトルデータベースに問い合わせる必要がある場合、このデータベースはシステムの長期記憶となります。長期記憶により、エージェントは長期間にわたって無制限の情報を保存し、アクセスすることが可能になります。外部ベクトルデータベースには、迅速な検索によってアクセスできます。エージェントは主に長期記憶を使用して、PDFや知識ベースの読み取りなど、多くの複雑なタスクを完了します。

(3)ベクトルデータベースはデータをベクトルに変換して保存します。

3. ツール

(1) インテリジェントエージェントは、外部ツールAPIを使用してモデルの機能を拡張し、大規模モデルを超えた機能や情報を取得できます。例えば、スケジュール管理、ToDo設定、データのクエリなどです。

(2) GPTなどの大規模モデルもプラグインの機能を更新し、最新の情報や特定のデータソースにアクセスできるようになりました。しかし、ユーザーは質問に対して事前に使用するプラグインを選択する必要があり、自然な回答ができません。エージェントは自動的にツールを呼び出し、計画の各ステップに基づいてタスクを完了するために外部ツールを呼び出すかどうかを判断し、ツールのAPIインターフェースから返された情報を次のタスクのために大規模モデルに取得することができます。

06 インテリジェントエージェントの応用展望

以前、金融業界におけるAIGCの応用シナリオを分析した際(「金融業界におけるAIGCの応用シナリオ分析」参照)、誰もがインテリジェントな金融アシスタントを持つ未来を思い描きました。このアシスタントは、ユーザーの金融ニーズを理解し、パーソナライズされた金融ソリューションを開発し、関連する金融商品やサービスの購入と管理を支援します。インテリジェントエージェントの出現により、このビジョンは技術的に実現可能になりました。もちろん、このビジョンを真に実用化するには、大規模な業界モデルやシナリオベースのタスクモデルの構築など、依然として多くの努力が必要です。

将来、企業は様々なビジネスシナリオや職務に合わせてカスタマイズされた専用のインテリジェントエージェントの導入を検討できるでしょう。これらのエージェントはデジタル従業員として機能し、報告書作成、Q&A、専門分野の検索、文書レビュー、一般事務、インテリジェント翻訳、データ分析、ソフトウェア開発など、様々な業務タスクを単独で、あるいは人間や他のインテリジェントエージェントと共同で遂行することができます。将来的には、管理者はデジタル従業員のグループを管理し、自然言語による対話などを通じてタスクを割り当てることができるようになります。インテリジェントエージェントの普及は、企業の業務効率を大幅に向上させるでしょう。

参考文献
1. 「2023年のAIエージェントの開発と応用に関する包括的な調査:概念、原理、開発、応用、課題、展望」王知識
2. 「AIエージェントとは何か?」張燕宇著
3. 「金融分野におけるAIエージェントの応用展望」ヤン・ジンソン