|
2023年第73回の記事です。 (推定読了時間:15分) AI(人工知能)に代表される新技術は、グローバルビジネス発展の新たな原動力となりつつあります。淘天グループは昨年より、AIの主要分野において大学との緊密な連携を継続的に進めています。 最近、Taotian Groupは、電子商取引アプリケーションシナリオにおける基本モデルと具体的な問題を組み合わせ、大規模モデルアプリケーションのための10のチャレンジングなトピックを公開しました。大学の教職員や学生、そして一般の方々に公開されています。皆様のご参加をお待ちしております。下記のトピックにご興味をお持ちいただけましたら、ぜひ原文をクリックしてこのチャレンジにご参加ください。豪華な報酬をご用意しております。ぜひご参加ください! 流暢さを重視する典型的なLLMベースのチャットボットとは異なり、eコマースシナリオにおける大規模モデルでは、応答の専門性に対する要求がより高くなります。モデルは、eコマース分野において、専門的で正確かつリアルタイムな回答を提供する必要があり、これは主に一般的なコーパスで学習された大規模モデルの弱点です。
リアルタイム情報を取得するには、検索拡張が効果的なアプローチです。しかし、モデルは基本的な情報の取得に加え、専門的な情報処理能力と、垂直分野に特有のドメイン知識も必要とします。これらの能力は、SFTなどの下流の最適化によって大幅に向上させることが難しく、事前学習中に開発する必要があります。- 一般的なデータではカバーしにくい専門知識をモデルが学習できるように、特定の専門分野のトレーニングデータを取得して構築する方法。
- 特殊なデータは量的に制限されていることがほとんどなので、モデルの忘却を避けるためには、どうすれば特殊なデータを効率的に活用できるでしょうか?
- 専門性と汎用性のバランスをどのように取るか?codeLLamaのような特定の分野に特化した純粋なプロフェッショナルモデルとは異なり、私たちの目標は、強力な専門性を備えた汎用モデルを作成することです。
- 特定の専門分野内でのデータ収集と処理のためのパイプラインを確立します。
- 特定の専門分野における能力構築のためのデータとトレーニング戦略を探求します。他の能力を損なうことなく、これらの分野におけるモデルの特化を強化します。
✪ 1.2.1 技術的背景 Eコマースでは、ユーザーが表明するニーズと商品に関する直接的な情報との間に乖離が生じることがよくあります。例えば、ユーザーが9月10日に贈り物をしたいと言っている場合、それは2つのことを暗示しています。9月10日は教師の日であり、教師の日の贈り物は通常、教師に贈られるということです。したがって、ユーザーの実際のニーズは、教師の日に教師への贈り物である可能性が高いです。ユーザーが賃貸アパート用に冷蔵庫が欲しいと言っている場合、暗黙の情報は、場所を取らない安価な冷蔵庫が欲しいということである可能性が高いです。 モデルがユーザーの意図を正確に理解したい場合、日常生活や消費に関する常識を持ち、その常識を使用してユーザーの表現を推論し、自然な表現を製品の客観的な説明と一致させる必要があります。現在、大規模モデルは専門分野のコーパスを用いてドメイン固有の知識を学習するのが一般的です。例えば、教科書や問題バンクといったコーパスを追加することで、モデルの分野固有の能力を大幅に向上させることができます。しかし、常識はあまりにも広範であるため、網羅的に列挙して要約することは困難です。一般的なコーパスを用いてモデルを学習させることで、ある程度の常識を獲得することはできますが、その能力の限界は制御不能であり、反復的な改善は困難です。- モデルは日常生活や消費に関する膨大な常識を学習する必要があります。こうした常識をトリプルや記述文のような形で明示的に表現することは困難です。通常の学習で得られたモデルの能力がビジネスニーズを満たすには不十分な場合、その能力をどのように向上させることができるでしょうか?
- モデルが基本的な常識を備えている場合、その常識を用いて正しく推論できるでしょうか?現実世界の問題では、推論のステップは1つに限定されない場合があります。
- モデルは、推論が必要かどうか、またどの程度まで停止するかを独自に判断する必要があり、これは明確な目的を持つ数学的推論とは異なります。
- 事前トレーニング、SFT、およびその他のモデルトレーニングプロセス中にモデルの常識理解を向上させる方法。
- アライメント プロセスにより、モデルは既存の知識を活用して、ユーザーのニーズを分析、理解、および推論できるようになります。
ビジネスアプリケーションでは、大規模モデルは特定のシナリオにおいて長いテキスト処理の問題に遭遇します。例えば、検索強化機能を備えたマルチターンの対話では、各ターンで使用される検索情報を保持する必要がある場合、対話全体のコンテキスト長が急速に増加する可能性があります。別の例としては、ツール呼び出しを伴うシナリオが挙げられます。このシナリオでは、プロンプト、ツールパラメータ、データ形式、ツール結果がすべて、かなりのコンテキスト空間を消費します。通常、学習コストを考慮すると、事前学習済みモデルの事前学習フェーズでは過度に長いコンテキストウィンドウは使用されません。このことから、小規模な再学習と補間によって、事前学習済みモデルがより長いコンテキスト処理ウィンドウを持つようにする必要性が生じます。- 後処理後の長シーケンスモデルのパフォーマンスは、元の長シーケンスモデルのパフォーマンスよりも低くなります。この差を縮めるにはどうすればよいでしょうか?
- スパース化などの手法を用いることで、事前学習段階でモデルが長いシーケンスを処理できるようになりますが、モデルのパフォーマンスに影響を与える可能性があります。課題は、シーケンスの長さ、学習のオーバーヘッド、そしてモデルのパフォーマンスのバランスを取ることです。
- 既存の事前トレーニング済みモデルのシーケンスの長さを拡張する方法。
- この研究では、シーケンスの長さ、トレーニングのオーバーヘッド、およびモデルのパフォーマンスのバランスをとることを目的として、事前トレーニング中に長いシーケンスをサポートする方法を調査します。
大規模モデルは強力な記憶能力を備えており、学習中に期待される知識を保持することができます。しかし、現実のビジネスシナリオでは、大規模モデルであっても出力の正確性を保証することはできないことが分かっています。例えば、存在しない携帯電話のパラメータについて質問された場合、大規模モデルは一見確実な答えを返すことがあります。この知識の錯覚は、eコマースのシナリオにおけるビジネスオペレーションに大きなリスクをもたらします。情報圧縮の観点から見ると、大規模なモデルが学習コーパス内のすべての情報を損失なく記憶することは不可能です。知識の錯覚を克服するには、2つの方向性があります。- モデルが以前に見た知識をより正確に記憶できるようにするため。
- モデルに知識をより正確に記憶させるにはどうすればよいでしょうか?例えば、トレーニングコーパスに3Cデジタル製品のパラメータライブラリが含まれている場合、関連する質問をされた際にモデルが情報を捏造する確率をどのように減らせばよいでしょうか?
- モデルが自身の知識の限界を理解できるようにするにはどうすればよいでしょうか?これらの限界を超える質問に対しては、明確な拒否応答を提供する必要があります。
- 事前トレーニングでは、モデルがコーパスに存在する知識をより正確に記憶できるように、トレーニング戦略とデータ戦略を検討および設計します。
- SFT や RLHF などの技術を通じて、モデルは知識の境界外の質問に対して明確な拒否応答を提供できます。
大規模モデルは事前学習中に豊富な世界知識を蓄積し、複雑で汎用的なインタラクティブ環境において強力な推論および意思決定能力を備えることができます。しかし、Taobao eコマースのようなドメイン固有の知識と意思決定ロジックに依存するドメイン固有のタスクにおいては、大規模モデルには依然として一定の限界があります。これらの問題を解決するには、より専門的なツールやドメイン知識が必要です。そのため、大規模モデルは、現実世界のタスクをより包括的かつ正確にサポートするために、様々な専門ツールを活用できる必要があります。例えば、「テキスト・トゥ・グラフ」ツールを呼び出すことで、大規模モデルはテキストからグラフへの変換に必要な説明言語を生成することで機能を拡張できます。また、「タオバオ商品検索」ツールを呼び出すことで、より専門的で正確かつタイムリーな商品知識を大規模モデルに取り込むことができます。
モデルの意図理解と推論機能を最大限に活用し、ツールを正しく選択し、解釈可能なツール呼び出しパスを提供するにはどうすればよいでしょうか。ツールが返す結果は、ドキュメント、表、構造化データなどです。モデルがツールによって返された知識を最大限に活用し、それを要約して、ニーズを満たす応答に統合することをどのように保証できるでしょうか。- 大規模モデルの機能を最適化して、ツールを理解、選択、呼び出し、ツール呼び出しパスを計画し、最高の呼び出し効率で問題を解決します。
- 大規模モデルが、ドキュメント、表、人間からのフィードバック、さらには画像などのさまざまな形式のツール出力を受け入れて理解できるようにし、それによって大規模モデルの最終結果を向上させる方法を研究します。
✪ 2.1.1 技術的背景 電子商取引アプリケーションでは、電子商取引における知識錯覚問題に対処するために、検索拡張を導入しました。例えば、ユーザーが「2000元前後のパソコンが欲しい」と質問した場合、Taobaoの商品データベースを検索し、2000元前後のパソコンをリアルタイムで見つけ、その商品情報をモデルに入力することで、ユーザーにより正確な回答を提供できます。しかし、検索拡張を導入する中で、以下の問題も発見しました。- データベースの構成の違いにより、問題解決に必要なeコマース情報を取得する際に、大量の無関係な情報も取り込んでしまう場合があります。そのため、モデルは大量のデータから問題解決に必要な正しい情報を抽出し、要約する必要があります。例えば、「李佳琦(リー・ジアチー)は今夜のライブ配信で口紅を使うでしょうか?」といったリアルタイムの質問の場合、検索によって李佳琦の今夜のライブ配信の商品選択リストを取得できますが、モデルはリストから口紅が含まれているかどうかを判断する必要があります。
- 企業が取得した知識であっても、完全に正確であるとは保証できません。モデルは、取得したテキスト情報とユーザーが入力した質問に基づいて、正しい知識と誤った知識を区別し、正しい回答を提供できる必要があります。
✪ 2.1.2技術的な課題 - 大量の検索結果から関連情報を抽出し、その情報を使用して適切な応答を生成する方法。
- 取得した誤った情報をモデルが拒否できるようにするにはどうすればよいでしょうか?
- 検索強化型 SFT トレーニング方法により、モデルは「検索情報要約推論」と「検索情報拒否」の両方の機能を備えることができます。
✪ 2.2.1 技術的背景 私たちは、さまざまなユーザーの意図に対応し、さまざまなツール呼び出しパスを活用するために、さまざまなソリューションを考案しました。たとえば、ユーザーが「ドレスはどうやって選べばいいですか?」と尋ねた場合、まず「決定要因」ツールを使用して、「ドレス」を選択する際に考慮すべき寸法を取得し、次にビッグモデルがこれらの寸法に基づいてユーザーに合理的な提案をできるようにします。例えば、ユーザーが「200元くらいのロングドレスをおすすめして」と尋ねた場合、まずTaobaoで商品を検索し、検索結果に基づいてビッグデータモデルにおすすめを依頼します。しかし、「ドレスをおすすめして」と尋ねる場合など、状況によっては、ユーザーに「ドレスの選び方」を最初に教える必要があるのか、それとも単に「ドレス」という質問だけなのかを判断できません。このような曖昧な意図のもとでは、大規模なモデルは、固定された意図の場合のように固定されたツールとパスのセットに頼るのではなく、膨大なユーザー行動データを通じて、ユーザーの問題を解決するための正しい意思決定パスを学習する必要があります。- ユーザーは、買い物をする際に、自分の本当の意図さえ明確に理解していないことがあります。膨大なユーザー行動データに基づき、eコマース分野における曖昧な意図の統計的有意性をモデルが学習できるようにするにはどうすればよいでしょうか?
- RLHF や CT などの技術を使用することで、あいまいな意図に対するツール学習方法を確立し、大規模なモデルで実際のユーザーのあいまいな意図を理解できるようになります。
2.3 RLHF、多目的プロフェッショナルeコマースプラットフォーム ✪ 2.3.1 技術的背景 事前学習済みの大規模モデルを指示を用いて微調整した後、モデルは当初は問題解決能力を発揮します。しかし、この段階では、大規模モデルは人間のニーズや価値観に完全には合致していません。そのため、人間のニーズに合わせるためには、人間のフィードバックに基づく強化学習(RLHF)を行う必要があります。RLHFは主に2つのステップで構成されます。- 報酬モデルは、現在の状態におけるモデルの出力の品質を決定するために使用され、それに応じてモデル パラメータが更新されます。
報酬モデルの学習用データを構築する際、同じ質問に対する複数の回答を手動で分類する必要があります。現在、最も一般的な方法は、2つの回答を[選択]/[拒否]として判断することです。これにより、同じ人的資源で質問の網羅性と多様性を高めることができます。人的資源への過度な依存を避けるため、一部の研究者はRLHFの「H」をAIで置き換えるRLAIFを用いており、GPT4が最も一般的に使用されているAIです。 H であれ AI であれ、問題が一般的なドメインの問題である場合はランキング付けが比較的簡単ですが、電子商取引分野の特殊な問題に直面している場合は、ランキング付けがより難しくなります。- 「ソニーの70200GM第2世代はどうですか?」「3Cデジタル」分野以外の人は、この製品について聞いたこともないかもしれないので、2つの異なる結果を分類することは不可能です。
- 「美容」分野以外の人でも、「適切な口紅の色を選ぶにはどうすればいいか」という質問に対するさまざまな答えから正しい判断を下すのは困難です。
同時に、Eコマースの分野には「3Cデジタル製品」や「美容」に加え、「アパレル」「スポーツ・アウトドア」「母子用品」「健康」といった専門分野が多く存在します。これらの専門分野は、報酬モデルの学習データ構築において課題となります。EコマースのRLHF(リレーションシップ・リレーションシップ・ハーモニー)は、専門性、正確性、包括性、そして深みという観点から、全体的な最適化が求められます。- 電子商取引業界の何百万もの専門分野で報酬モデルのトレーニング データを自動的に構築します。
- 電子商取引分野の RLHF 結果は、専門性、正確性、包括性、深さなど、より多くの目標に合わせて最適化する必要があります。
- データの観点:電子商取引の垂直特化における報酬モデルのトレーニング データを構築する方法論。
- モデルレベル: 多目的最適化のための RLHF メソッド。
2.4 大規模生成モデルに基づく電子商取引クエリの理解 ✪ 2.4.1 技術的背景 eコマースの検索では、ユーザーがクエリを入力すると、システムはそのクエリを理解した上で適切な商品を返します。通常、ユーザーのクエリと販売者が入力した商品名の間には自然な差異があります。クエリは比較的短く文法的にも正しいのに対し、商品名は長くキーワードが詰め込まれています。この意味的なギャップを埋めるためにクエリを書き換える必要があり、クエリの書き換えによって元のクエリよりも商品数が増えることを期待します。従来のクエリ書き換え手法(行動データに基づく協調フィルタリングやセマンティックデータに基づく類似性判別手法など)は、自然言語クエリの理解度が限られており、ロングテールクエリに対して適切な結果のマッチングが困難です。しかし、大規模モデルに基づく生成的書き換えは、大規模モデル内の知識を活用してクエリ理解度を向上させ、ロングテールクエリに対して適切な書き換えクエリを直接生成することができます。- 典型的な大規模モデルアプリケーションでは、システムは大規模モデルに含まれる知識を、質問への回答としてユーザーに返します。しかし、eコマースのクエリ理解においては、この知識を用いてクエリに関連する書き換えられたクエリを生成するだけでなく、書き換えられたクエリが検索システムに増分商品を提供できるようにすることも必要です。
- ユーザーがeコマース検索システムに入力するクエリは複雑かつ多様です。複数のクエリを用いてユーザーのニーズを完全に理解することは困難です。
- 電子商取引のシナリオでは、検索システム内のクエリを深く理解した上で構築されたクエリ書き換えテクノロジにより、増分製品を実現できます。
- ユーザーの行動をモデル化することで、ユーザーのニーズをより深く理解し、クエリのコンテキストに基づいてパーソナライズされたクエリ書き換えテクノロジを確立できます。
2.5 大規模モデルの常識的知識に基づく認知的推奨 ✪ 2.5.1 技術的背景 電子商取引の推奨シナリオでは、ユーザーの多様なショッピングニーズを満たすために、アリババが独自に開発したビッグデータモデルを活用して、ユーザーの興味に基づいた推奨の新しいパラダイムを開発したいと考えています。従来のレコメンデーションアルゴリズムは、ユーザーの行動に大きく依存しており、その行動に基づいて類似の商品や人物を見つけ出します。この方法は非常に効率的ですが、繰り返しになりがちです。積極的なプッシュは短期的な効率性の向上につながる一方で、全体的な発見可能性の低下を招き、「この商品をクリックしたのに、なぜまたレコメンデーションが表示されるのか?」「毎日同じものを見るのは退屈だ」といった不満を抱くユーザーが増えています。そのため、この繰り返しを打破し、「予想外でありながら論理的な」結果をユーザーに提供するには、何らかの手法が必要です。まさに大規模モデルが優れている点です。私たちは、世界に関する知識と推論能力を大規模モデルに組み込むことで、人間の認知能力に合致する推奨を構築し、結果の発見可能性を高め、既存のデータループを改善したいと考えています。- ユーザーの電子商取引ショッピングニーズを合理的な方法で表現し、自然言語と電子商取引構造の意味空間を調整します。
- 主流の大規模モデル向けの SFT および RLHF 機能を備え、有効性とパフォーマンスのバランスが取れています。
- 目標は、従来の推奨事項に価値を付加することであり、その結果は発見可能で驚きのあるものとなり、ユーザーに具体的な体験を提供する必要があります。
- 超大規模言語モデルを調査し、大規模言語モデルの適用に関連するデータ構築、微調整、アライメント、およびその他のモデル最適化作業を担当します。
- Taobao の推奨シナリオにおける大規模言語モデルの応用には、論理的推論、インテリジェントなコンテンツ理解、製品のクリエイティブ生成が含まれます。
- 新世代の認知推奨アルゴリズム システムを確立し、インタラクティブ推奨製品のイノベーションと組み合わせることで、ユーザー エクスペリエンスとホームページ推奨の長期的な価値を向上させます。
|