HUOXIU

JD.com広告研究開発 – JD.comの推奨広告ランキングメカニズムの進化

1. はじめに:広告ランキングメカニズムの過去と現在

1.1 はじめに: 広告ランキングの仕組み

オンライン広告は、国内外の大手インターネット企業にとって重要な収益源となっています。オンライン広告と従来の広告の最大の違いは、その大規模なリアルタイム入札環境にあります。数万もの広告主が1日に数億ものインプレッションを競い合います。この複雑なリアルタイム入札環境において、広告システムのリランクモジュールは、トラフィックの最終的な配分と課金方法を決定する上で重要な役割を果たします。トラフィック配分は最終的に表示される広告素材を決定し、トラフィック課金は表示された広告ごとに適切な料金を課金することで、広告収入へと変換されます。

オーガニック検索のレコメンデーションシステムがユーザーエクスペリエンスをその文脈において重視するのに対し、広告トラフィックシステムはユーザーエクスペリエンスという制約下での収益化を重視します。こうした状況において、従来のリランキングモジュールのeコマースオンライン広告におけるビジネスポジショニングは変化してきました。既存のマルチビジネス目標(クリック数、GMV、期間など)に加えて、プラットフォームの広告収益をさらに考慮する必要があり、同時に、優良広告に対して公正かつ合理的な課金を行う必要があります。広告システムにおけるリランキングは、その独自のビジネス特性から、広告ランキングメカニズムとも呼ばれ、ユーザー、マーチャント、プラットフォームの3者にとってWin-Winの関係を築くことを目指しています。

ビジネスコンテキストとシステム機能に基づいて、広告ランキングメカニズムの目的を次のように定義します

広告ランキングメカニズムの目的は、上流システムによって提供される資料 (リコール/大まかなランキング) に基づいて広告をランク付けすることです トラフィック価値の推定(正確なランキングPCTR、入札など)、ユーザーエクスペリエンス(コンテキスト、多様性など)とプラットフォーム収益(クリック、収益、GMVなど)を総合的に考慮し、インセンティブと互換性のある(広告主に真実を伝えることを奨励する)オークションメカニズム(割り当てと課金ルール)を設計します。





1.2. 過去:経済学的観点から見た伝統的なオークションメカニズム

ランキングメカニズムの目的において、インセンティブ適合性(広告主が真実を語ることを奨励すること)について言及しました。実際、インセンティブ適合性は経済学におけるメカニズム設計の重要な原則の一つです。以下では、従来のオークションメカニズムの関連する経済的背景を簡単に振り返ります。

1. 「メカニズム設計」経済学の観点から見ると、広告トラフィックの配分と販売はメカニズム設計の問題と捉えることができる[1]。オークションメカニズムの設計と関連研究は、過去60年間で4回ノーベル経済学賞を受賞している。GSPやVCGといった古典的なオークションメカニズムは、優れたゲーム理論の性質と実装の容易さから、2002年頃にインターネット広告で広く利用された。2 . 「広告主のタイプ」従来のオークションメカニズムでは、広告主は効用最大化者、つまりGMVとコストの差を最大化する者と想定されることが多い。しかし、広告掲載側におけるインテリジェントマーケティング手法の普及に伴い、ますます多くの広告主がプラットフォームに対して予想コストと目標を提示し、インテリジェント入札のアルゴリズム機能を用いてリアルタイムに広告を掲載するようになっている。広告主のタイプは徐々に価値最大化者[2]へと変化してきている。つまり、コスト制約を満たす条件下で配分価値(GMVなど)を最大化する者であり、単に差の最大化を追求する者ではない。 3. **インセンティブ適合性制約:**広告主がプラットフォーム上で真意に基づいて入札することを促すことは、オークションメカニズムの設計における重要な経済的制約です。インセンティブ適合性オークションメカニズムは、広告主に誠実さを促すことで、入札戦略の設計を大幅に簡素化し、ゲーム環境を最適化し、プラットフォームに収益最大化メカニズムを設計するためのより便利なツールを提供します。 4. **個人合理性制約:**優れたオークションメカニズムは、インセンティブ適合性制約に加えて、個人合理性制約も満たす必要があります。簡単に言えば、個人合理性制約は、プラットフォームが広告主に支払う最終的な料金が入札額を超えないことを要求し、広告主の最小収益が非負であることを保証します。

1.3. 現代:Eコマースシナリオにおける推奨広告ランキングメカニズム

インターネット広告の急速な発展に伴い、トラフィックは急速に増加し、ユーザーベースと行動はより大規模かつ多様化しています。広告媒体は、単なる商品展示から、集約ページ、イベント、店舗、動画、ライブ配信など、多様な媒体へと拡大しています。さらに、広告主の目標設定とコミュニケーション手段は、手動入札から、プラットフォームが予算とコストを管理し、インテリジェントな入札へと移行しています。そのため、広告ランキングメカニズムの設計は多くの新たな課題に直面しています。JD.comのビジネスシナリオに基づき、以下の3つの問いをまとめ、皆様と共有いたします。

1. **「多様な素材の比較可能な価値」: ** キャンペーン広告、店舗広告、ライブストリーム広告などのコンテンツ広告といった、より多様な素材の種類に対応するには、比較可能性を確保し、トラフィック配分の効率性を向上させるために、より正確で包括的な素材価値推定が必要です。2 . ** 「あいまいなユーザー関心の捕捉」: ** ユーザーの検索クエリと強い相関関係にある検索広告と比較して、レコメンデーション広告におけるユーザーの関心を正確に捕捉することはより困難です。そのため、トラフィック配分においては、ユーザーの関心の探索と活用を考慮する必要があります。3 . ** 「情報フローにおける複数アイテムオークション」:**情報フロー広告のシーケンスレベルでの流通と販売は、経済学における典型的な複数アイテムオークション問題です。単一アイテムオークションとは異なり、複数アイテムオークションは、指数関数的に拡大するメカニズム探索空間、複雑な入札戦略空間、そしてより満たすことの難しいインセンティブ適合性制約に直面しています。これらは、学界と産業界で認識されている課題です。

上記の3つの課題をより明確に特徴付けるため、ランキングメカニズムの問題に対する以下の数理モデルを開発しました。前述の通り、このメカニズムは、上流サプライヤー(材料、価値見積もり)から提供される情報に基づき、ユーザーエクスペリエンスの制約下でトラフィックを効率的に配分し、収益化する方法という問題を解決することを目的としています。

効率的なトラフィック配分は、トラフィック価値の正確な測定と、それを探索・活用するための効率的なメカニズムにかかっています。トラフィック品質はADQと略されます。私たちは…





ここで、pctr は上流のランキング システムによって提供される推定クリックスルー率であり、bid は広告主の入札額です。

撹乱項は探査の強度をモデル化し、マッピングするために使用される。

これにより、トラフィック価値の融合と順位関係が決定されます。効率的なトラフィック配分は、トラフィックの各ポイントの価値(PCTR、入札額など、関数内の重要な要素)の正確な測定と、トラフィックの効率的な探索と利用のための配分メカニズム(すなわち、

そして、マッピング関係の設計。

トラフィックの収益化に関しては、単品オークションの設計と同様に、インセンティブの整合性を確保するために、トラフィック分配メカニズムに適した課金方法を設計する必要があります。1つのリクエストで4つの広告が表示されると仮定すると、広告収益は以下のように内訳されます。





ここで、pij は i 番目のリクエストにおける j 番目の広告の料金を表します。したがって、問題はさらに以下の 3 つの項目に分解できます。

1. **トラフィック価値の正確な測定:**多様で豊富なコンテンツ形式がある環境で、トラフィック配分の基準となる主要なランキング要因 (pctr、bid など) を正確に予測するにはどうすればよいでしょうか? 2. **トラフィックの効率的な探索と利用:**ユーザーの興味が漠然としていて捉えにくい場合、効率的な利用と探索 (マッピング f と探索摂動) による配分メカニズムをどのように設計すればよいでしょうか? 3. **トラフィックの効率的かつ公正な収益化:**レコメンデーション フィード広告の複数商品オークションのシナリオでは、インセンティブ互換性 (DSIC) を確保しながらプラットフォーム収益 (rev) を増やす適切な課金方法をどのように設計すればよいでしょうか?

以下では、JD.comのレコメンデーション広告ランキングメカニズムの進化を踏まえ、これら3つの疑問に対する私たちの考えと解決策を提示します。皆様との更なる議論と交流のきっかけになれば幸いです。

2. 本文:JD.comの推奨広告ランキングオークションメカニズムの進化

2.1 価値第一: 複雑なビジネスシナリオにおけるトラフィック価値の正確な測定

電子商取引の急速な発展に伴い、レコメンデーション素材の表示形式は、単一商品1画面から、複数商品と多様な素材を1画面に表示する複雑なビジネスシナリオ(商品、店舗、アクティビティページ、集約ページなど)へと徐々に拡大してきました。異なる素材の価値をいかに統一的に、かつ正確に測定するかは、ランキングメカニズムの大きな課題です。この課題を解決するため、JD.comのビジネスシナリオを起点に、ランキング段階の価値理解を再検証しました。個々のポイントの価値をより正確に予測し、グローバル情報をより深く活用することで、複雑なビジネスシナリオにおけるトラフィック価値の正確な測定を実現しました。





「ユーザー行動のMDPモデリング」 JD.comのレコメンデーション広告フィードシナリオでは、下図に示すように、各広告は組み合わせて表示されます。ユーザーがJD.comアプリにアクセスし、レコメンデーションを閲覧する際、典型的なマルコフ過程(MDP)が実行されます。特定の露出シーケンスの組み合わせにおいて、ユーザーはクリック、スクロールダウン、離脱などのアクションを実行する可能性があります。特定のシーケンスのランキング値は、現在の値、クリック後の値、スクロールダウン後の値に分解されます。当然のことながら、異なる候補露出シーケンスを異なる状態、クリック、スクロールダウン、離脱などの一般的なユーザーアクションをアクション、クリック率、スクロール確率、離脱確率を遷移確率として扱い、ユーザーの事後フィードバックを報酬として収集することができます。





点から線へ:単一点から全体観点までの価値予測

従来のランキングメカニズムでは、CTRとECPMが主要なランキング要因として一般的に用いられます。しかし、上述のMDPモデリングに基づくと、CTR/ECPMは現在のリクエストの価値のみを反映しており、内部ページや残りの訪問数全体にわたるリクエストの全体的な価値を正確に反映していないことが明確に分かります。実際、リクエストは露出の瞬間だけでなく、アイテムがクリックされた後やシーケンスがスクロールダウンされた後にも価値を生み出します。これらの2つのアクションは、それぞれクリック確率とスクロールダウン確率を通じて現在の露出と相関しています。

そこで、特定の露出素材について、クリックして内部ページへ移動した後に発生するクリックと消費を内部ページ価値と定義し、ファインランキングと並行して動作する予測システムを構築しました。露出シーケンスについては、最適化の範囲を単一リクエストからセッションにまで拡大し、より長期間にわたる価値の最大化を図ります。そのために、次のページへスクロールした後に発生するクリックと消費をシーケンススクロール価値と定義し、ファインランキングモジュールの後に、スクロール確率と次ページ価値を予測する長期的な価値予測モデルを構築しました。





クリックスルー率(CTR)予測などのバイナリ分類タスクと比較すると、内部ページ価値と長期価値は連続値であるため、典型的な回帰タスクになります。これらのタスクは離散点の影響を大きく受け、有効なサンプルはまばらです(有効な正のサンプルとは、外部ページでクリックが発生し、内部ページでアクションが発生するサンプルです)。その結果、サンプル分布に大きなばらつきが生じます。さらに、期間予測タスク[3, 4]とは異なり、価値予測タスクは予測中に内部ページ情報を部分的に観測できるという問題も抱えています。これらは、内部ページ価値と次ページ価値を正確に予測するための特有の課題です。これらの問題を解決するために、マルチシナリオ、マルチタスク共同モデリング、事前情報支援、オフライン蒸留を使用して回帰問題を分類することで、モデルの価値予測能力を大幅に向上させ、トラフィック価値の効率的な配分のための強固な基盤を築きました。

点と線が面を形成する:非同期コンピューティングに基づく値の調整

価値推定モデルは、単一の素材の全体的な価値を考慮します。しかし、情報フロー広告はマルチスロット露出形式であるため、単一の素材の価値(クリック率、内部ページの価値など)は、現在の素材だけでなく、周囲の他の素材の影響も受けます(例えば、ある素材の内部ページの価値が特に高い場合、それは内部ページが非常に魅力的であることを意味し、ユーザーが内部ページに入り、その後外部ページから離脱する意欲が大幅に低下するため、周囲の他の素材のクリック率に大きな影響を及ぼします)。単一の情報に基づく先行モジュールに基づく推定値には、深刻な偏りがあります。





再ランキング段階は、ファインランキング段階と比較して、シーケンス情報、内部ページと外部ページ情報、スクロールダウン確率など、より豊富で正確なグローバル情報を有しています。再ランキング段階はシステムの出口に位置するため、利用可能な時間と空間が限られており、大規模で複雑な特徴抽出と計算を妨げています。そのため、非同期事前計算アプローチを採用し、フロントエンドの十分な時間と計算能力を利用して、値の較正に必要なシーケンスと候補キュー情報を事前計算しました。同時に、再ランキング段階に値修正モジュールを導入し、シーケンス内の各素材のクリックスルー率(CTR)と内部ページ値を較正しました。CTR較正タスクでは、クリックなしの露出をネガティブサンプルとして使用し、クリックありの露出をポジティブサンプルとして使用します。内部ページ値の較正タスクでは、クリックして消費したデータをポジティブサンプル、クリックして消費しなかったデータをネガティブサンプルとして使用し、クリックなしの露出を中間サンプルとして使用します。ストップグラインド法を用いることで、中間サンプルが内部ページ値予測タスクに与える影響を遮断します。非同期計算によって時間制約下でグローバル情報を導入し、同時にシーケンスCTRと内部ページ値情報間の相互学習をモデル化することで、値キャリブレーションモジュールはオフラインAUCとRMSE指標の二重の改善を実現し、導入後の収益向上に大きく貢献します。

2.2 希望の光:ユーザーの興味が曖昧な状況におけるトラフィックの効率的な探索と活用

ユーザーが明確な意図を持つ検索シナリオとは異なり、推奨シナリオにはユーザークエリがなく、ユーザーの興味を直接明らかにすることはできません。関連性と、ユーザーの履歴で頻繁にアクセスされたカテゴリの推奨に重点を置きすぎると、潜在的なユーザーの興味を満たすことができず、情報繭効果、ユーザーの不快感、そして極端な場合には苦情や世論につながります。トラフィックを効率的に探索して活用するには、多くの課題もあります。まず、トラフィックの探索と活用は、リコール、微調整、再ランク付けを含むフルチェーンアプローチに依存しているため、単一ポイントの最適化が困難です。探索はプラットフォームの短期目標(クリック数、収益)と負の相関関係にあることが多く、探索と活用のバランスをとることが課題です。ユーザーごとに探索の好みが異なり、各ユーザーに固有のアプローチが必要です。しかし、露出リストに関するユーザーの好みに関する直接的なフィードバックを得ることは難しく、探索のエンドツーエンドの学習目標を定量化することは困難です。

ユーザーの興味が曖昧なシナリオでのトラフィックの効率的な探索と利用の問題を解決するために、ユーザーの興味に基づいた製品の事前トレーニング[5, 6]と体系的な探索[7, 8, 9]という2つの側面からモデル化します。





Rock Solid: ユーザーの興味に基づいた製品の事前トレーニング

曖昧なユーザー興味の精緻なモデル化は、商品素材への深い理解にかかっています。Eコマース独自の商品タグ付けシステム(カテゴリーや商品キーワードなど)は、不正確さ、冗長性、粗い粒度、不十分な階層構造といった問題を抱えています。これに対処するため、私たちは大規模なNLP/CVマルチモーダル事前学習モデルを活用し、より正確な商品カテゴリータグと商品埋め込みを生成し、効率的なトラフィック探索と活用の基盤を築きます。残差量子化変分符号化の考え方に基づき、埋め込み表現に残差量子化を施し、アイテム間の階層的な意味関係を維持します。これにより、事前学習済み言語モデルのパターンが「テキスト ==> 表現」から「テキスト ==> コー​​ド ==> 表現」へと変化し、事前学習済み埋め込みがテキスト記述に過度に依存する問題を軽減し、商品間のギャップが誇張されることを防ぎます。





高山と流水:体系的な水流探査と利用

効率的なトラフィック探索と活用には、探索と活用における多様性の制御と割り当てメカニズムが含まれます。中心的な課題は、多様性の制約を満たしながらトラフィックの探索と活用の効率性のバランスを取り、長期的なユーザーエクスペリエンスとビジネスパフォーマンスを向上させることです。したがって、ユーザーの興味が曖昧なシナリオにおける効率的なトラフィック探索と活用は、レコメンデーション広告の割り当て効率を向上させるために不可欠です。これにより、ユーザーの興味の境界が広がり、ユーザーエクスペリエンスと長期的なリテンションが向上し、最終的には長期的なビジネス成長に貢献することができます。

これに対処するため、階層型でエンドツーエンドのパーソナライズされたトラフィック探索および利用スキームを提案します。多次元密度分散戦略を通じて極端な多様性の問題を効率的に解決します。リコール、候補セット、シーケンス生成および評価段階を含む上流および下流チェーン全体に多様性および探索モジュールを導入します。並べ替えモジュールでは、シーケンス生成-評価フレームワークに基づいて、リストレベルの探索および利用スキームを実装します。シーケンス生成段階では、エンドツーエンドの生成モデルに基づいて、関連性と多様性の多目的協調最適化を実現します。シーケンス評価段階では、ユーザーの長期的な経験と探索の好みを定量化可能な短期から中期のフィードバックにモデル化し、全体的なユーザー価値のエンドツーエンドのモデリングを実現します。





2.3 繁栄する景観:複数商品オークションシナリオにおけるトラフィックの効率的かつ公正な収益化

単一品目オークションにおいて、古典的なマイヤーソンの補題によれば、メカニズムがインセンティブ両立的であるためには、その部分入札額が単調に非減少でなければならない。包絡線定理によれば、手数料の計算式は配分規則(差は最大で定数分)によって決定される。しかし、複数品目オークションにおいては、組み合わせ探索空間が指数的に大きく、インセンティブ両立性の要件が厳格であるため、収益最大化を実現する複数品目オークションメカニズムの設計は極めて困難である。





そのため、2019年以降、学術界では新たな方向性が生まれています。それは、ディープラーニングによるメカニズム設計です。このアプローチは、ニューラルネットワークを使用して、RegretNet[10]やRDM[11]などのインセンティブ両立性のある収益最大化マルチアイテムオークションメカニズムを近似しようとします。メカニズム設計問題をインセンティブ両立性制約付きの収益最大化問題としてモデル化することで、ニューラルネットワークの強力な学習能力を使用して、収益最大化インセンティブ両立性マルチアイテムオークションメカニズムを近似します。しかし、計算の複雑さなどの理由から、これらの研究は業界で大規模に実装されていません。その後、アリババのDeepGSP[12]、DNA[13]、MeituanのNMA[14]など、大量のデータによって駆動されるディープオークションメカニズムが業界で徐々に登場しました。

JD.comは2021年以来、レコメンデーション広告の分野においてディープオークションの仕組みを実践・適用してきました。当初のオークションメカニズムであるTopKグリーディソート+GSPは、GSPスロットモデルオークションに基づくDeepAuctionへとアップグレードされ、最終的には強化学習マルチ商品オークションに基づくListVCGへと進化しました。これにより、業界の追随者から業界のリーダーへと変革と飛躍を遂げました。以下では、関連する取り組みとメカニズムの進化プロセスをご紹介します。

DeepAuction: TopK 貪欲ソートからスロット割り当てに基づくオークションモデルへ

モデルベースオークションが主流になる以前は、TopKグリーディソートとGSP(Good Selling Price)課金の組み合わせが業界で一般的なソリューションでした。しかし、従来のGSPは複数アイテムのオークションには適しておらず、複数アイテムオークション課金アルゴリズム(VCG)は計算の複雑さとプラットフォームの短期的な収益損失のために実装が困難でした。そこで私たちはまず、スロットベースのモデルベースオークションとGSP課金を通じて、従来のオークションメカニズムからモデルベースオークションへの移行を試みました。具体的には、ニューラルネットワークを用いて各スロットの異なる広告素材の品質スコアを計算し、この品質スコアに基づいてソートと課金を行いました。





従来のeCPMベースのランキング手法とは異なり、モデルベーススコアリングは、複数のビジネス目標に向けたエンドツーエンドの学習をサポートします。トラフィックの長期的な価値をモデル化するために、強化学習ベースのActor-Criticフレームワークを導入します。オフラインでは、ポリシー勾配バックプロパゲーションを用いてポリシースコアリングパラメータを学習・更新します。オンラインでは、順列不変の候補セットエンコーダを用いて候補素材をモデル化し、それを動的オークションパラメータ予測モデルに入力することで、各スロットの動的な品質スコア計算を実現します。





ListVCG: カリキュラム強化学習に基づくシーケンスオークションメカニズム

前述のように、フィード広告は典型的な複数商品オークションのシナリオです。業界標準のソリューションである GSP (Global Product Provider) は、理論上も効率上も最適ではありません。VCG (Video Generator Group) 複数商品オークションのメカニズムが理想的なソリューションです。ただし、VCG は理論上のソリューションに過ぎず、その前提条件は、組み合わせたオークション結果を効率的に見つけることです。一方、レコメンデーションサービスは複雑で、典型的な多目的最適化シナリオを表しています。標準的な VCG は社会福祉の最大化を目的としているため、GSP から VCG に切り替えると、短期的にはプラットフォームの収益が大幅に減少する可能性があります。これは、VCG メカニズムの切り替えにおける認識された課題です。したがって、VCG と多目的最適化を組み合わせることは、私たちが直面する大きな課題です。JD.com の実際のアプリケーションシナリオに基づいて、これらの問題に対処するための ListVCG オークションメカニズムを提案します。

最初の課題は、数千億のシーケンスを探索空間として、700通りの順列と組み合わせから4つを選択するという問題を解くことです。私たちはこれを、古典的なActor-Criticアーキテクチャを借用した強化学習問題として定義します。Actorは確率行列を出力し、サンプリングによって順列と組み合わせの問題を解決します。同時に、実際のユーザーからのフィードバックを活用してCriticの評価を向上させます。選択された最適な組み合わせは、ポリシー勾配を用いてActorの学習を導きます。この反復的で自己改善的なアプローチを通じて、最適な組み合わせを効率的に近似します。





VCGにおける複数アイテムのオークションは経済的な問題でもあり、長期的な生態系の健全性を確保するためには、インセンティブ両立型オークション理論の制約に従う必要があります。しかしながら、多目的問題に対する一般的な最適化アプローチは、VCGの課金を利用できなくしてしまうことがよくあります。そこでListvcgでは、ECPM値をパラメータ化し、課金を確実にしながら、学習可能なパラメータを用いてプラットフォーム収益、社会福祉、ユーザーエクスペリエンス、そして全体的な物質的価値といった多目的最適化のニーズを満たせるようにしました。

トラフィックの長期的な価値をより適切にモデル化するために、当然のことながら強化学習を導入しました。当初は、DDQNなどの従来のオフポリシーQ学習アルゴリズムを試しました。しかし、事後報酬がスパースであるため、モデルのトレーニング性能が不安定でした。そこで、報酬シェーピングとカリキュラム強化学習の概念を導入しようと試みました。密な事前報酬を追加することで、データ側の報酬スパース性を軽減し、モデルが比較的単純なシングルステップの意思決定タスク(シーケンシャルな露出、クリック、シングルステップの価値予測など)に収束した後、長期的な意思決定タスクを学習できるようにしました。これにより、モデルのパフォーマンスが大幅に向上し、長期的な入札環境を最適化すると同時に、短期的な収益と広告主のROIを向上させることができました。







3. 結論と展望

レコメンデーション広告のランキングメカニズムは、トラフィック価値の正確な測定、曖昧なユーザー関心シナリオにおけるトラフィックの効率的な探索と活用、そして複数商品オークションシナリオにおけるトラフィックの効率的かつ公正な収益化を通じて、JD.comのレコメンデーション広告環境の特性に合致したランキングメカニズムを構築しました。これにより、効率的なトラフィック配分と収益化が可能になり、レコメンデーション広告事業の成長に貢献しています。今後も、ランキングメカニズムチームは、特に自然検索結果のランキングとインテリジェント入札が混在する環境において、これら3つの方向でメカニズムの反復的な改善と最適化を継続していきます。

最後に、ランキングオークションの仕組み、レコメンデーションシステム、オンライン広告にご興味のある方は、ぜひJD.comレコメンデーション広告チームにご参加ください。共に成長し、JD.comの広告事業の発展に貢献してまいります。お問い合わせ先:[email protected]

4. 参考文献

【1】ティム・ラフガーデン『アルゴリズムゲーム理論に関する20の講義』ケンブリッジ大学出版局、2016年。

【2】CA Wilkens、R. Cavallo、R. Niazadeh、S. Taggart、 「価値最大化者のためのメカニズムデザイン」、2018年。

【3】 Paul Covington、Jay Adams、Emre Sargin、「YouTube レコメンデーションのためのディープニューラルネットワーク」、RecSys 2016。

【4】 Ruohan Zhan他、「動画推薦のための視聴時間予測における期間バイアスの排除」、KDD 2022。

【5】S. Rahjput他「生成的検索によるレコメンデーションシステム」、NeurIPS 2023。

【6】Yupeng Hou他、「転送可能なシーケンシャルレコメンダーのためのベクトル量子化アイテム表現の学習」、WWW 2023。

【7】 Carbonell J, Goldstein J. MMRの利用、多様性に基づく再ランキングによる文書の並べ替えと要約の作成、ACM SIGIR、1998: 335-336。

【8】 Chen L、Zhang G、Zhou E. 決定論的点過程のための高速貪欲マップ推論による推奨多様性の向上、NeurIPS、2018、31。

【9】Lin Z, Wang H, Mao J, et al. 関連性のある推奨のための分離表現による特徴を考慮した多様化再ランキング、KDD 2022: 3327-3335。

【10】P. Dutting、F. Zhe他「ディープラーニングによる最適オークション:微分可能経済学の進歩」ICML 2019。

【11】J. Rahme、S. Jelassi、S. Matthew Weinberg、「2人用ゲームとしてのオークション学習」、ICLR 2021。

【12】Xiangyu Liu他、「Eコマース広告のためのディープGSPオークションによる複数のパフォーマンスメトリックの最適化」、WSDM 2021。

【13】Zhilin Zhang他「ニューラルオークション:Eコマース広告のためのオークションメカニズムのエンドツーエンド学習」KDD 2021。

【14】Guogan Liao他「NMA:オンライン広告のための外部性を備えたニューラルマルチスロットオークション」、2022年。