AIネイティブエンジニアリング：BaiduアプリAIインタラクションテクノロジー実践

出典: Baidu Geek Talk

著者 | GodStart

導入

AIの台頭に伴い、大規模モデルを用いてビジネスモデルを再構築するアプリケーションが増えています。Prompt の設計と最適化のプロセスにおいて、Promptの評価と最適化のサイクル全体が非常に長いことが判明しました。そこで、Promptの生成、評価、反復処理を統合したソリューションを提案します。これにより、 Promptの評価と最適化プロセスにおける課題を解決し、ビジネスモデルと大規模モデルの統合を加速します。

全文は6796語から成り、読むのに17分かかると推定されます。

オタクトーク

背景

インタラクティブAIアプリケーションにおける大規模モデル技術の探求と実践を通じて、ユーザーエクスペリエンスとプラットフォームインタラクションの向上におけるその顕著な有効性を目の当たりにしてきました。この技術は、ユーザーのエンゲージメント率とエンゲージメント期間を向上させるだけでなく、より豊かなインタラクティブエクスペリエンスを提供するための新たな道を切り開きます。こうした認識に基づき、私たちは3つの主要な開発目標を設定しました。第一に、さまざまなインタラクティブシナリオにおける大規模モデルの適用範囲を拡大し、より多くのコンテンツとユーザーグループをカバーすること。第二に、大規模モデルがさまざまなインタラクティブニーズに対応できるように能力を向上させ、より幅広い垂直産業に適応すること。そして最後に、大規模モデルに基づくAIアプリケーションを継続的に革新・改善し、インタラクティブモードを絶えず最適化・再構築することです。これらの目標を達成することで、インタラクティブエクスペリエンスにおけるプラットフォームの主導的地位を維持しながら、ユーザーエンゲージメントを大幅に向上させることができます。

これらの戦略の実装中に、一連の重要な課題と問題点が徐々に浮上しました。まず、データの断片化の問題があります。さまざまな種類のリソースデータが異なるメッセージキューに散在しているため、データ統合が複雑になり、アーキテクチャの重複につながります。次に、現在のPrompt評価プロセスは手動による介入に過度に依存しており、作業効率が低下するだけでなく、Promptの更新と展開の速度も遅くなります。さらに、効果的なデータフライホイールメカニズムがないため、包括的で明確なデータフィードバックを得ることが困難であり、モデル出力のパフォーマンスの正確な評価と迅速な反復的な意思決定を妨げています。最後に、大規模モデルに基づく多くのアプリケーションは、処理フローの一貫性が非常に高いものの、複数のコードセットを記述する必要があり、リソースと時間の無駄になっています。

これらの課題に対処するため、大規模モデルアプリケーション開発実践プラットフォームの構築を提案します。このプラットフォームは、AIアプリケーションのデータ統合、プロンプト評価、モデル反復プロセスを簡素化し、不要な重複や冗長性を排除することで、全体的な効率と出力を向上させることを目的としています。AI生成データを一元的に管理・分析することで、AIアプリケーションにより正確なデータサポートを提供し、プロンプト生成プロセスを最適化します。これにより、AIアプリケーションの反復速度が加速されるだけでなく、継続的なモデル最適化のための強固な基盤が提供されます。このプラットフォームを通じて、AI技術の効率的かつ信頼性の高い実装を実現しながら、高品質なAIインタラクティブエクスペリエンスを提供できると期待しています。

オタクトーク

基礎知識

2.1 プロンプトエンジニアリング

GPTやWenxin Yiyanなどの大規模モデルは強力な言語理解・生成機能を備えていますが、特定のタスクに対する直接的な最適化が不足していることがよくあります。このような場合、大規模モデルの出力を最適化するには、プロンプトエンジニアリングが必要です。プロンプトエンジニアリングは、モデルが特定のタスクの要件をより適切に理解できるように支援し、そのタスクにおけるパフォーマンスを向上させると同時に、時間とリソースを節約し、ユーザーエクスペリエンスを向上させます。

2.2 プロジェクトのライフサイクルを示す

従来の R&D サイクルと同様に、プロンプトエンジニアリングにも独自のライフサイクルがあり、一般的に次のステップに分けられます。

要件分析: モデルが達成する必要がある特定のタスクと目標、および期待される出力標準を決定します。

データの収集と前処理: タスク関連のデータを収集し、必要なクリーニングと前処理を実行します。

初期プロンプト設計：要件に基づいて初期プロンプトを設定します。通常、プロンプトのキーワードと期待される出力は、特定のタスクに基づいて決定されます。

テストと評価: 設計されたプロンプトを使用してモデルをテストし、出力の品質を評価します。

プロンプトの最適化: テスト結果に基づいて、プロンプトが反復的に最適化され、出力の精度と関連性が向上します。

統合と展開: 最適化されたプロンプトを実際のアプリケーションに統合します。

継続的な監視と調整: 実際のアプリケーションでは、モデルのパフォーマンスを継続的に監視し、フィードバックに基づいて調整します。

一般的に、プロンプトの評価と最適化は継続的なサイクルです。プロンプトのパフォーマンスが期待どおりになった場合にのみ、統合と導入が進められます。導入後は、さらなる調整と最適化を行うために、本番環境で生成されたデータをタイムリーに監視する必要があります。

△ プロジェクトライフサイクルリマインダー

オタクトーク

大規模モデルアプリケーション開発実践プラットフォーム

3.1 プラットフォームの紹介

上記の課題に対処するため、大規模モデルアプリケーション開発実践プラットフォームを構築しました。このプラットフォームは、インタラクティブAIアプリケーション向けに特化して設計されており、リソース情報に基づいて生成されるインタラクティブコンテンツの管理と最適化を一元化することを目的としています。このプラットフォームは、データストリームへの統合アクセスと大規模言語モデルの集中的な呼び出しを可能にし、コンテンツ生成と処理のワークフローを大幅に簡素化します。現在、このプラットフォームは6つの主要機能を備えており、その全体的なアーキテクチャを下図に示します。

迅速な評価：注目度の高いリソースに特化した評価など、リソースの種類に基づいた正確な評価をサポートします。オンラインデータサンプリング技術により、評価結果の正確性と信頼性を確保します。

プロンプトホスティング: プロンプトの展開とホスティングを含むワンストッププロンプト管理サービスを提供し、プロンプトの効果的な管理と適用を保証します。

リソースの選択: インタラクティブ AI アプリケーションがワンクリックでさまざまなリソースを自由に選択してアクセスできるようにサポートし、さまざまな種類のインタラクティブ AI アプリケーションに柔軟なリソース構成オプションを提供します。

モデル切り替え: プラットフォームは、基盤となる大規模モデルに対してアプリケーションレベルのワンクリック切り替え機能を提供します。これにより、アプリケーションは必要に応じて、低トラフィック環境と高トラフィック環境で基盤となるモデルを柔軟に切り替えることができます。

トラフィック制御：大規模なモデルリソースに対するさまざまなインタラクティブ AI アプリケーションのニーズに基づいて、きめ細かいアプリケーションレベルのトラフィック制御が実装されました。

データフライホイール: リクエストのコンテキスト情報を保存し、データチームと協力してアプリケーションレベルのデータフライホイールを作成することをサポートし、AI アプリケーションの開発を加速します。

3.2 迅速な評価とリリース

3.2.1 迅速な評価

大規模モデルアプリケーション開発実践プラットフォームの導入により、Prompt評価のスピードと効率が大幅に向上し、これまで手作業に依存していた煩雑なプロセスが、高効率な自動化ワークフローへと進化しました。ユーザーは、Promptを提出し、評価条件を選択して結果を待つだけで済みます。以下のPrompt評価フローチャートは、Prompt評価におけるプラットフォームの主なメリットを明確に示しています。

1. 効率的なデータ選択と処理：ユーザーは、プラットフォーム内で、トレンドリソースなどの特定の種類のリソースデータを直接選択して評価できます。プラットフォームは、これらのリソースに一致するデータを自動的に抽出し、ユーザーの設定要件に基づいて迅速にプロンプトを作成します。これにより、データ処理速度が向上するだけでなく、評価のランダム性と精度も確保されます。

2. 複数モデルの同時評価機能：プラットフォームは、複数のモデルを同時に評価対象として選択する機能をサポートしています。これにより、ユーザーは異なるモデルのパフォーマンスを比較することができ、評価結果の信頼性と客観性を確保できます。この手法により、外部変数を効果的に制御し、評価結果の精度と信頼性を高めます。

3. 評価プロセス全体の最適化：プラットフォームは生成された評価内容を結果テーブルに永続的に保存し、データの整合性とトレーサビリティを確保します。この最適化により、評価プロセスの効率性が向上するだけでなく、評価結果の安定性と信頼性も向上します。

△迅速な評価プロセス

3.2.2 プロンプト起動

大規模アプリケーション開発実践プラットフォームは、Promptの導入とホスティングを含むワンストップのPrompt管理サービスを提供しており、Promptの効率的な管理と適用を実現します。フローチャートに示すように、Promptの評価が完了し、所定の基準を満たすと、以下の手順が自動的に実行され、迅速かつシームレスなPromptの導入が保証されます。

1. 自動プロセスの開始: 満足度が設定されたしきい値に達し、手動で確認されると、オンラインプロセスが自動的に開始されます。

2. 起動前チェック: システムは、モデル出力の精度、適用性、コンプライアンスなどを含む最終チェックを実行します。

3. トリアージテスト: トラフィックの少ないユーザーグループ間で Prompt を選択的にテストし、実際の効果を評価して、パフォーマンスが期待どおりであることを確認します。

4. 完全なトラフィック展開: トラフィック分割テストで Prompt のパフォーマンスが良好であることが確認されると、システムはそれを完全なトラフィック環境に展開します。

5. パフォーマンス監視: Prompt が稼働を開始した後、プラットフォームは安定性と効率性を確保するために継続的にパフォーマンスを監視します。

この時点で、当社のプラットフォームは、Prompt のテストと展開の全プロセスを高効率で完了しました。

△迅速評価開始フローチャート

3.2.3 QEP（品質評価プラットフォーム）との統合

自動化ツールは効率性の向上と人件費の削減において大きな成果を上げていますが、Promptの品質評価は依然として人手によるレビューに依存しています。このプロセスは時間がかかるだけでなく、主観的な判断に左右されやすく、Promptの反復開発のスピードと規模を制限しています。さらに、インタラクティブAIアプリケーションの成長と複雑化に伴い、評価メカニズムに対する要件も高まっており、従来の人手による評価方法では、現代の大規模AIアプリケーションの急速な開発ニーズを満たすことが困難になっています。

これらの課題に対処し、Promptの評価プロセスをさらに自動化するため、QEPプラットフォームとの統合を決定しました。QEPは、高度な大規模モデル機能を活用してPromptの有効性を自動的に評価・スコアリングすることで、人的リソースを大幅に解放し、開発チームがより価値の高いクリエイティブな作業に集中できるようにします。QEPの自動評価ツールを統合することで、当社の大規模モデルアプリケーション開発実践プラットフォームは、Promptをより正確かつ迅速に反復開発できるようになり、リリースされる各Promptが高品質基準を満たすことを保証できます。これにより、Promptの最適化サイクルが加速されるだけでなく、ユーザーにはより豊かで正確なインタラクティブ体験を提供できます。

△ プラットフォームPromptのテスト開始の全景

QEPの統合により、プラットフォームの機能が全面的に強化され、Promptライフサイクルのあらゆる段階を網羅し、最適化を実現しました。これにより、Promptの自動生成と最適化の効率が向上し、AIインタラクティブアプリケーションの開発が加速し、ユーザーに高品質なインタラクティブエクスペリエンスを提供します。

3.3 データフライホイールの構築

プラットフォームはPromptの評価と展開の全プロセスを実装しましたが、実際のオンラインパフォーマンスやユーザーの受容に関する直接的なフィードバックはまだ不足しています。この情報ギャップを埋めるために、大規模モデルから生成されたインタラクティブな素材に対するユーザーの反応を迅速に取得・分析するためのデータフライホイールの構築を提案します。このステップは、Promptの品質とインタラクティブな効果を継続的に向上させるために不可欠です。

3.3.1 フライホイールデータの基礎

フライホイール構築において、データ分析は最も重要な部分です。あらゆるインタラクティブAIアプリケーションの大規模モデルへのアクセスレイヤーとして、このプラットフォームは当然ながらデータに関する優位性を備えています。このプラットフォームに基づいてフライホイールデータ分析を構築する主な手順は次のとおりです。

1. インタラクティブデータのキャプチャ：あらゆるインタラクティブAIアプリケーションと大規模モデルとのインタラクションのハブとして、プラットフォームは大規模モデルによって生成されたすべての重要な情報をキャプチャします。これには、インタラクション量やインプレッション数などの主要指標が含まれ、後続の分析のための生データを提供します。

2. データウェアハウスと統合：これらの情報をデータウェアハウスシステムと組み合わせることで、各インタラクティブAIアプリケーションのパフォーマンスを正確に追跡できます。これらのデータは包括的なビューに統合され、詳細な分析と洞察の抽出を容易にします。

3. 洗練されたプロンプトレベルのフライホイール：よりきめ細かなプロンプトレベルのデータフライホイールをサポートし、ビジネスユーザーはプロンプトレベルで効果とユーザーフィードバックを確認できます。この洗練された視点により、最適化プロセスはより的を絞ったものになります。

4. アラームメカニズムとフィードバックループ：プロンプトによって生成されたオンライン収益が予想または平均を下回った場合、自動アラームメカニズムがトリガーされ、ビジネスチームに潜在的な問題を通知します。このメカニズムにより、非効率的なプロンプトが特定され、タイムリーに修正されます。

5. データの解析と保存：日々の上位インタラクションデータは解析され、正しい形式で保存されます。これは、大規模モデルの微調整の基盤となります。このデータは、モデルの精度と応答性を最適化するために直接使用されます。

△ プラットフォームデータ分析フローチャート

上記に基づいて、次の 3 つの重要なデータポイントを生成しました。

1. 日次レポートと分析: 毎日のビジネスレポートを生成し、継続的なデータ監視とビジネス分析を提供し、意思決定をサポートします。

2. 問題のアラートと処理: 期待に応えられないアラートとレポートについては、ビジネス効率を確保するために注意と最適化が必要なプロンプトがすぐに示されます。

3. データ準備の微調整: 上位データを主要な入力として使用して大規模モデルを微調整し、常に変化するユーザーの行動や市場動向に適応するためにモデルを継続的に改善します。

このように、プラットフォームのデータフライホイールは、プロンプトを最適化するための強力なツールとなるだけでなく、AIインタラクションシステム全体の効率を向上させるための重要な要素にもなります。この包括的なデータ駆動型アプローチにより、プロンプトの生成は理論と予測に基づくだけでなく、リアルタイムのユーザーフィードバックと市場動向を反映し、適応することが可能になります。

3.3.2 フライホイールのパノラマビュー

プラットフォームのデータ出力は、フライホイールの最後のピースを完成させ、相互に依存し連携する3つの主要コンポーネント（本番環境からの実世界データ生成、プラットフォームからのデータ分析、そしてPromptからの反復的な最適化）とフライホイールを統合しました。以下は、その主要要素の一部です。

リアルタイムデータ取得：本番環境に導入されたPromptは、ユーザーインタラクションとフィードバックを反映したデータを継続的に生成します。このリアルタイムデータはプラットフォームによって取得・分析され、その後のPromptの最適化に役立つ貴重な情報を提供します。

継続的な最適化サイクル：これらの分析結果に基づき、Promptのコンテンツと戦略を継続的に調整し、ユーザーのニーズをより適切に満たし、インタラクション効率を向上させます。この反復的なプロセスにより、Promptはユーザー行動や市場トレンドの変化に適応することができます。評価とリリース

評価と展開：プラットフォームによる評価後、最適化されたプロンプトは速やかに本番環境にプッシュされます。本番環境では、プロンプトは継続的にデータを生成し、フライホイールのデータソースをさらに充実させます。

閉ループ型データフロー：本番環境で生成されたデータはプラットフォームによって再度取得・分析され、自己強化的な閉ループ型データフローを形成します。このプロセスは、プロンプトの適時性と関連性を向上させるだけでなく、プロンプトの生成と反復がユーザーからのフィードバックや市場動向と密接に同期していることを保証します。

データフライホイールを通じて、データドリブンなプロンプト最適化を実現し、各プロンプトが最新の市場データとユーザーデータに基づいて生成されるようになりました。この包括的なデータドリブンアプローチは、プロンプトのユーザビリティと魅力を高めるだけでなく、AIインタラクションシステム全体のパフォーマンスと効率性を向上させ、ユーザーに、よりパーソナライズされた魅力的なインタラクティブ体験を提供します。

オタクトーク

プラットフォームアプリケーションシナリオ

私たちの研究では、様々なコンテンツプラットフォームのコメント欄において、ユーザーが「バーチャルキャラクター」とかなりのインタラクションを行っていることが明らかになりました。例えば、Mixue Ice Creamのアカウントがコメント欄に登場したことで、ユーザーエンゲージメントが著しく高まりました。そこで、私たちは、関連するAIキャラクターをコメント欄に埋め込む可能性を示唆しています。大規模モデルの推論能力とリソース自体のコンテンツ情報を活用することで、これらのモデルは特定の役割を担い、コメント欄内でインタラクションを行うことができます。これにより、「エンターテインメントへのモチベーション」が高まり、ユーザーの打ち解けを促し、インタラクティブな行動を刺激し、感情的な価値満足をもたらすことが期待されます。

4.1 AIキャラクターの迅速な評価と最適化

プラットフォームのリリース前は、AIキャラクターの迅速な評価と最適化のプロセスは非効率で困難でした。この従来のプロセスでは、チームはデータ分析後に多数の操作と反復を手動で実行する必要があり、多くの場合、数週間から数ヶ月かかり、AIキャラクターの展開が遅れていました。プラットフォームはこのような状況を一変させました。統合された自動化ツールと効率的なデータ処理機能により、評価と最適化の速度が大幅に向上し、数週間からわずか数日に短縮されました。この効率の飛躍的な向上により、AIキャラクターをソーシャルメディアのインタラクションに迅速に展開できるようになり、全体的な展開プロセスが大幅に加速されます。さらに、プラットフォームのワンクリック操作により、最適化されたAIキャラクターのプロモーションと適用がさらに簡素化され、面倒な再開発と展開のプロセスが回避されます。つまり、このプラットフォームは、AIキャラクターの迅速な最適化速度を大幅に加速するだけでなく、全体的な展開の効率と柔軟性も向上させ、ソーシャルメディアのインタラクションにより高速でスムーズなAIアプリケーションエクスペリエンスをもたらします。

4.2 AIキャラクタープロンプト構築における問題点と解決策

プラットフォームの効率性が向上したにもかかわらず、プロンプト構築プロセス中の AI キャラクタープロンプトの生成速度は、以下の問題により依然として低下していました。

複雑な文脈理解エラー： プロンプトの開発中、特定の文化的意味合いを持つ新たなインターネットスラングやユーモアを理解する上で課題に直面しました。大規模言語モデルの強力な言語処理能力にもかかわらず、これらの複雑な文脈を理解するのは依然として困難でした。この課題に対処するため、綿密なデータアノテーション戦略を実装し、データセット内のこれらの難しい要素に詳細な文脈アノテーションと正確な感情ラベルを提供しました。これにより、モデルがこれらの特定の表現を正しい文脈で理解して使用できるようになりました。同時に、モデルがユーザーの意図をより正確に把握し、それに応じた応答を生成できるように、明確な説明を含むプロンプトを設計しました。これらの改善により、モデルは特定の文化的意味合いを持つインターネットスラングやユーモアをより適切に理解し、応答できるようになりました。
ワンサンプルショット： 当初は、厳選された少数のサンプルを提供することで、モデルの理解と生成を導くことを目指し、Few-Shot Learningアプローチを試しました。しかし、サンプルが多すぎると、モデルは特定のサンプルに過剰適合してしまい、新しい未知の状況に一般化できないことがわかりました。さらに、多数のFew-Shotサンプルを処理すると、計算負荷が増加し、応答効率が低下します。Zero-Shot Learningの試みでは、複雑なインターネットスラングや文化的ミーム、特に微妙な感情や皮肉を含むミームの意味を正確に把握できないことがあることが分かりました。さらに、具体的なサンプルが不足しているため、モデルの応答生成における文脈的関連性が欠如していました。これらの制約を考慮し、最終的にOne-Sample Shot戦略を採用しました。各プロンプトに対して、特定の文脈における意味と感情を網羅するのに十分な代表性を持つ、厳選されたサンプルを提供します。このシンプルなサンプルは、モデルが特定のインターネットスラングやミームを理解するための基本的な枠組みを構築するのに役立ちます。例えば、人気のあるインターネットミームの場合、ミーム自体のサンプルだけでなく、その起源、使用シナリオ、そして想定される反応についても説明を提供します。こうした単一でありながら有益なサンプルを用いることで、モデルは大量のサンプルに過度に依存することなく、新しい用語やミームをより深く理解し、適応することができます。ワンサンプルショットによって、モデルの汎化能力とパーソナライズされた反応の必要性のバランスをうまくとることができ、AIキャラクターは計算リソースを効率的に利用しながら、ユーザーとより正確にインタラクションできるようになります。

4.3 AIキャラクター効果

AIキャラクターがコメント欄に導入されて以来、ユーザーの参加とコメント活動が大幅に増加し、コメント欄の雰囲気が効果的に盛り上がりました。AIキャラクターのコメントはネットユーザーからも好評で、いいねや返信が多数寄せられました。以下はAIキャラクターの効果を示すスクリーンショットです。

左右にスワイプしてエフェクト表示画像を表示します

オタクトーク

要約と展望

大規模モデルアプリケーション開発実践プラットフォームを構築することで、Promptの評価、展開、継続的な監視と調整というプロセス全体を実装し、インタラクティブAIアプリケーションの反復速度を大幅に加速することに成功しました。しかし、新たな課題にも直面しています。インタラクティブなビジネスシナリオの複雑性と多様性が増すにつれ、大規模モデルの出力が特定のシナリオのニーズを完全に満たすとは限りません。この問題に対処するため、教師ありファインチューニング（SFT）や人間からのフィードバックによる強化学習（RLHF）といった、より高度なファインチューニング手法を導入する予定です。これらの手法により、大規模モデルのより深いカスタマイズと最適化が可能になり、モデル出力が複雑なインタラクティブシナリオにより適切に適応できるようになります。

HUOXIU

AIネイティブエンジニアリング：BaiduアプリAIインタラクションテクノロジー実践

△ プロジェクトライフサイクルリマインダー

3.2.1 迅速な評価

△迅速な評価プロセス

3.2.2 プロンプト起動

△迅速評価開始フローチャート

3.2.3 QEP（品質評価プラットフォーム）との統合

△ プラットフォームPromptのテスト開始の全景

3.3.1 フライホイールデータの基礎

△ プラットフォームデータ分析フローチャート

3.3.2 フライホイールのパノラマビュー

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

△ プロジェクトライフサイクルリマインダー

3.2.1 迅速な評価

△迅速な評価プロセス

3.2.2 プロンプト起動

△迅速評価開始フローチャート

3.2.3 QEP（ 品質評価プラットフォーム）との統合

△ プラットフォームPromptのテスト開始の全景

3.3.1 フライホイールデータの基礎

△ プラットフォームデータ分析フローチャート

3.3.2 フライホイールのパノラマビュー

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

3.2.3 QEP（品質評価プラットフォーム）との統合