出典: JDテクノロジーカタログ

序文
関係を考慮した拡散モデルに基づくポスターレイアウト生成
カテゴリーの共通性とパーソナライズされたスタイルを統合した製品背景生成
企画・レンダリングに基づく商品ポスター生成
要約と展望

序文

今年のアジャイルチーム構築中に、Suite Executorを使ってワンクリックで自動ユニットテストを実装しました。Suite Executorの他に、JuintにはどんなExecutorがあるのでしょうか？こうして、私のRunner探求の旅が始まりました！

Eコマースの広告画像は、消費者の注目を集めるだけでなく、ブランドの核となる価値やストーリーを伝え、消費者との感情的なつながりを構築します。しかし、既存の広告画像のほとんどは手作業で制作されており、効率とコストの面で限界があります。AIGC技術は最近目覚ましい進歩を遂げていますが、広告画像への応用は、セールスポイント情報の不足、スケーリングとパーソナライズの難しさ、セールスポイントのアピールの難しさなどの課題に直面しています。これらの業界の課題に対処するため、JD.comの広告部門は2023年に一連の革新的な方法を提案しました。まず、手作業で制作した商品画像にセールスポイント情報を重ね合わせる関係性認識型拡散モデルを提案しました。次に、カテゴリーの共通性とパーソナライズされたスタイルを統合し、スケーラブルでパーソナライズされた自動画像生成を実現する背景生成モデルを提案しました。最後に、プランニングとレンダリングに基づくポスター生成モデルを提案し、グラフィックとテキストのクリエイティブコンテンツのエンドツーエンド生成を実現しました。これらの方法により、高品質の広告クリエイティブコンテンツの自動生成が可能になり、プラットフォームの広告収入が増加しました。

関係を考慮した拡散モデルに基づくポスターレイアウト生成

簡単に説明すると、MCubeはまずテンプレートキャッシュの状態に基づいて、ネットワークから最新のテンプレートを取得するかどうかを判断します。テンプレートが取得されると、テンプレートをロードします。ロードフェーズでは、出力がビューツリー構造に変換されます。変換が完了すると、式エンジンが式を解析し、正しい値を取得します。イベント解析エンジンは、ユーザー定義イベントを解析し、イベントバインディングを完了します。解析、値の割り当て、イベントのバインディングが完了したら、ビューがレンダリングされ、最終的に対象ページが画面に表示されます。

2.1 技術的背景

ポスターレイアウト生成は、画像上の視覚要素の位置とカテゴリを予測することを目的としています。このタスクは、ポスターの美的魅力と情報伝達において重要な役割を果たします。優れたポスターレイアウトを作成するには、レイアウト要素間の関係性と画像全体の構成の両方を考慮する必要があるため、この困難な作業は通常、プロのデザイナーによって行われます。しかし、手作業によるデザインは時間とコストがかかります。高品質なポスターレイアウトを低コストで生成するために、自動レイアウト生成は学術界と産業界の両方でますます普及しています。

ディープラーニングの登場により、レイアウト要素間の関係性を学習するためのコンテンツに依存しない方法がいくつか提案されています。しかし、これらの方法は要素間のグラフィック関係に重点を置いており、視覚コンテンツがポスターレイアウトに与える影響を無視しています。これらの方法をポスターレイアウト生成に直接適用すると、悪影響が生じる可能性があります。これらの問題に対処するために、レイアウト生成のためのコンテンツ関連の方法がいくつか提案されています。これらの方法は画像自体のコンテンツ情報を考慮し、追加の空間情報も導入しますが、それでも2つの重要な要素を考慮する必要があります。1つは、ポスターで情報を伝達する上でテキストが重要な役割を果たしていることです。もう1つは、優れたレイアウトでは、個々の要素の座標の精度だけでなく、要素間の座標関係も考慮する必要があることです。

前述の問題に対処するため、我々は、視覚とテキスト、および幾何学的な関係要因を同時に考慮する、ポスターレイアウト生成のための関係を考慮した拡散モデルを提案する。多くの生成タスクで拡散モデルが大きな成功を収めていることから、我々はノイズからレイアウトへのパラダイムに従い、ノイズ除去モデルを学習することでノイズを徐々に調整し、ポスターレイアウトを生成する。各サンプリングステップでは、ガウスサンプリングを使用して分散されたボックスのセット、または最後のサンプリングステップから推定されたボックスを入力として、画像エンコーダーを使用して、生成された特徴マップとしてRoI特徴を抽出する。次に、視覚的特徴とテキスト特徴の関係をモデル化するためのテキスト画像関係認識モジュール（VTRAM）を提案し、レイアウト結果を画像とテキストの内容によって同時に決定できるようにする。同時に、我々は幾何学的関係認識モジュール（GRAM）を設計し、各RoIの相対的な位置関係に基づいて各RoIの特徴表現を強化し、モデルがレイアウト要素間のコンテキスト情報をよりよく理解できるようにする。新しく提案された VTRAM および GRAM モジュールを利用することで、ユーザーはレイアウトを事前定義したりテキストコンテンツを変更したりすることでレイアウト生成プロセスを制御できます。

2.2 拡散モデルに基づくポスターレイアウト生成

拡散モデルは、マルコフ連鎖を用いてノイズをデータサンプルに変換する確率的生成モデルの一種です。上図に示すように、ポスターレイアウト生成問題をノイズからレイアウトへの生成プロセスとして扱い、ノイズの多いレイアウトを段階的に調整するノイズ除去モデルを学習します。したがって、拡散モデルによって生成されるポスターレイアウトには、拡散プロセスとノイズ除去プロセスの2つのプロセスが含まれます。ポスターレイアウトが与えられた場合、決定論的なレイアウト結果を乱すためにガウスノイズを徐々に追加します。この操作は拡散プロセスと呼ばれます。逆に、初期のランダムレイアウトが与えられた場合、段階的なノイズ除去によって最終的なポスターレイアウトを取得します。これはノイズ除去プロセスと呼ばれます。

2.3 テキストとグラフィックの関係の認識

視覚的特徴とテキスト特徴を単純に連結するのではなく、画像とテキストの特徴ドメインを整合させるビジュアル・テキスト関係モジュール（VTRAM）を設計しました。このモジュールは、視覚要素とテキスト要素の関係を認識し、画像とテキストの両方の特徴の利用を最適化し、コンテンツをより包括的に理解できるようにします。上の図は、i番目のRoI特徴𝑉𝑖と言語的特徴𝐿のマルチモーダル融合を2段階で実現するVTRAMプロセスを示しています。まず、明示的な位置情報を視覚的特徴に追加するために、RoI特徴𝑉𝑖とそれに対応する位置埋め込みを連結して、視覚的位置特徴を取得します。次に、位置が注入された視覚的特徴をクエリとして、言語的特徴をそれぞれキーと値として使用し、クロスアテンションを実行して最終的なマルチモーダル特徴Miを取得します。

2.4 幾何学的関係の認識

RoI特徴間の位置関係の認識を強化するため、モデルがレイアウト要素間のコンテンツ情報をより適切に学習できるように、Geometric Relationship Aware Module (GRAM)を設計しました。具体的な内容は以下のとおりです。まず、K個のRoIが与えられた場合、2つのRoI 𝑙𝑖と𝑙𝑗 (𝑖, 𝑗 ∈ {1, 2, ..., 𝑁})の相対位置特徴 φ は以下のように計算されます。

次に、4D埋め込みベクトルを正弦余弦符号化法を用いて幾何学的重み係数に埋め込みます。最後に、幾何学的重み係数をソフトマックス関数を用いて正規化し、主要な役割を果たす成分を強調します。

異なる種類の要素には異なる配置戦略が必要であることを強調することが重要です。例えば、背景はテキストタイプの要素を覆う必要がありますが、他の種類の要素との重なりは避ける必要があります。そのため、要素のカテゴリ情報としてRoI特徴を抽出します。位置情報とカテゴリ情報を統合するために、抽出された視覚特徴を展開し、射影関数Pによってλ次元のベクトルに変換します。最後に、視覚的埋め込みに幾何学的重みを乗じて、最終的な幾何学的特徴λを取得します。

カテゴリーの共通性とパーソナライズされたスタイルを統合した製品背景生成

3.1 技術的背景

商品広告背景生成は、商品透明画像に自然でリアルな背景を作成し、高品質な広告画像を構築してクリック率を向上させることを目的としています。既存の背景生成手法は、主に「テキストから画像へ」と「画像から画像へ」の2種類に分けられます。「テキストから画像へ」モードでは、説明文と商品透明画像を大規模拡散モデル（Stable DiffusionやControlNetなど）に入力し、テキストに基づいて商品周囲の背景領域を塗りつぶします。一方、「画像から画像へ」モードでは、追加の参照画像を導入し、その画像に一定強度のノイズを大規模拡散モデルの初期ノイズとして追加することで、生成された背景領域が参照画像と一定の類似性を持つことを保証します。

既存の背景生成手法は、「テキストから画像へ」または「画像から画像へ」のいずれかのアプローチを採用しています。 「テキストから画像へ」アプローチには、主に2つの欠点があります。1つ目は、プロンプトの設計と改良に多大な時間を要することです。2つ目は、プロンプトは画像の空間レイアウトや抽象的なスタイルを説明するのにあまり効果的ではなく、細かくカスタマイズされた背景を作成するのが困難であることです。「画像から画像へ」アプローチでは参照画像が導入されますが、それでもなお限界があります。参照画像に重ね合わせたノイズによって元のレイアウトや構成要素がぼやけてしまうため、生成された画像は参照画像との概ね類似性しか保証できず、よりきめ細やかで正確な制御ができません。

上記の課題に対処するため、参照画像に基づいて商品広告背景を生成する手法を提案する。この手法は、元の商品の透明画像、元の商品が属するカテゴリー、および他の商品の広告画像（参照画像）を入力とすることで、レイアウト、構成要素、色、スタイルが参照画像に類似する元の商品の背景画像を生成することができる。本発明のフレームワークは下図に示す通りであり、事前学習済みの拡散モデル「安定拡散（Stable Diffusion：SD）」、カテゴリー共通性生成器（CG）、およびパーソナライズ情報ベース生成器（Personal Information-based Generator：PG）の3つのモジュールで構成される。カテゴリー共通性生成器は、商品透明画像から商品の位置やカテゴリーなどの情報を抽出し、PGは参照画像からレイアウト、構成要素、色、スタイルなどのパーソナライズ情報を抽出します。CGとPGによって抽出された特徴は、SDのデコーダーに統合され、最終的な背景を生成します。これにより、参照画像を模倣して背景を生成できるモデルを設計し、レイアウトやスタイルなどの詳細な情報を記述するための複雑なプロンプトを必要としない。

3.2 カテゴリ共通性に基づく生成

このステップの目的は、CG（Graphical Character Set）を用いて商品透明画像から情報を抽出し、商品カテゴリーに適した汎用背景を生成することです。CGへの入力は、商品透明画像、商品タグ、背景タグの3つの部分で構成されます。商品タグは「Cの写真」、背景タグは「Dの背景に」です。ここで、Dは特定の文字列「sks」とCに対応するカテゴリーコードの連結を表します。CGの具体的な構造はControlNetと基本的に同じですが、違いはCGのアテンションモジュールを商品マスクに基づくアテンションモジュールに置き換えている点です。透明画像内の商品マスクM（透明画像から直接取得可能）を考えると、商品マスクに基づくアテンションモジュールは次のように表すことができます。

ここで、XinとXoutはそれぞれアテンションモジュールの入力モジュールと出力モジュールを表し、CA()は通常のアテンションモジュールを表し、•はドット積記号を表します。トレーニング後、各カテゴリの背景スタイルはマッピングされ、対応するDにのみマッピングされます。したがって、推論中にカテゴリ名Cが与えられると、モデルは固定されたマッピング関係を通じて対応するDを取得し、Dをキューワードとして使用してカテゴリの背景の共通性に適合する背景を生成することで、キューワード設計の複雑さを軽減できます。

3.3 パーソナライズされたスタイルに基づく生成

このステップの目的は、製品ビュー（PG）を用いて、参照画像から取得したパーソナライズ情報をカテゴリーの一般的な背景に重ね合わせることです。PGへの入力は、参照画像と、参照画像内の元の製品マスクの2つの部分で構成されます。PGの具体的な構造はControlNetと同じで、入力は参照画像の背景領域です。PGはプロンプトワードの入力を必要としません。プロンプトワードは単に「」です。具体的には、参照画像から取得したパーソナライズ情報は生成された背景領域にのみ適用されるため、PG出力は製品透明画像Mを用いてフィルタリングされます。具体的には、ControlNetと同様に、PGは異なる解像度で5つの特徴マップを出力します。i番目の特徴マップについては、Mを乗算します。ここで、Mは製品透明画像マスクを表します。

企画・レンダリングに基づく商品ポスター生成

4.1 技術的背景

製品ポスターは、製品プロモーションにおいて重要な役割を果たします。優れたデザインのポスターは、背景、テキスト、製品自体といった要素が論理的にレイアウトされているだけでなく、製品と調和した背景も備えている必要があります。そのため、この難しい作業は通常、人間のデザイナーによって行われています。しかし、人間のデザイナーに頼るとコストが増加し、効率も低下するため、製品とテキストから製品情報を効果的に伝えるポスター画像を生成する、エンドツーエンドの製品ポスター生成技術が求められています。

現在、エンドツーエンドの製品ポスター生成技術は存在しません。最も関連性の高い2つの分野は、画像塗りつぶしと製品ポスターレイアウト生成です。図(a)に示すように、画像塗りつぶし技術は、既存の製品画像に基づいて製品の背景領域を自動生成できます。図(b)に示すように、製品ポスターレイアウト生成技術は、人間のデザイナーが作成したポスター上の視覚要素の適切な配置を見つけることができます。したがって、これら2つのタスクを単純に連携させることが、エンドツーエンドの製品ポスター生成を実現するための基本的なソリューションと見なすことができます。

上図(c)に示すように、画像塗りつぶしと製品ポスターレイアウト生成を組み合わせることは、製品ポスター生成のソリューションとして考えられますが、この技術的ソリューションには2つの欠点があります。第一に、画像塗りつぶし技術によって生成される背景はリアルな質感を持ちますが、その複雑さゆえにレイアウトモデルが視覚要素の適切な配置を見つけることが困難です。第二に、画像塗りつぶし技術は製品の位置を事前に決定する必要があるため、レイアウトモデルはテキストと背景の位置しか制御できず、レイアウト結果の多様性が低下します。これらの欠点により、既存の技術では、美しく多様な製品ポスターを生成することが困難です。既存技術の欠点を解決するため、私たちは人間のデザイナーによるポスターデザインプロセスを分解し、そのプロセスを借用しました。上図(d)に示すように、このプロセスは通常、計画とレンダリングという2つのステップで構成されます。計画段階では、デザイナーは通常、紙とペンを使用してすべての視覚要素の位置を大まかに計画します。これにより、他の視覚要素の位置は、事前に決定された製品の位置によって制約されません。レンダリング段階では、デザイナーはコンピューターを使用して全体のレイアウトを美しいポスター画像にレンダリングします。背景をレンダリングするときにテキストなどの要素の位置も同時に考慮されるため、レンダリングされた背景はテキスト情報を伝達するのに役立ちます。

4.2 計画ネットワークに基づくレイアウト生成

上記の分析に基づき、我々はプランニングとレンダリングに基づくエンドツーエンドの製品ポスター生成手法を提案します。この手法は、人間のデザイナーのワークフローを参考に、ポスター生成タスクを完了します。提案されたフレームワークは上図に示されており、プランニングネットワーク（PlanNet）とレンダリングネットワーク（RenderNet）で構成されています。PlanNetは、まず製品画像とテキストコンテンツをエンコードし、次にレイアウトデコーダーを使用してそれらを融合してより合理的なレイアウトを生成し、最後に製品とその他の視覚要素の位置を予測します。RenderNetは、PlanNetによって生成されたレイアウトと製品画像を、生成プロセスの制御条件として使用します。まず、空間融合モジュールを使用して、異なる視覚要素間の空間関係を学習します。次に、生成された背景と製品との調和を確保するために製品の外観をエンコードします。最後に、2つの制御条件をControlNetに入力して、安定拡散生成プロセスをガイドします。これらの技術的利点を組み合わせることで、高画質で多様性に富んだ製品ポスター生成手法を実現しました。

計画ネットワークの目的は、レイアウトデコーダーを用いた複数の反復的なノイズ除去ステップを通じて、ランダムな入力レイアウトを最終的な視覚要素レイアウト位置に変換することです。図に示すように、ステップ t において、レイアウトデコーダーの入力は 3 つの部分で構成されます。時刻 t におけるレイアウト結果 zt、抽出された視覚的特徴と言語的特徴、そして出力である時刻 t-1 におけるレイアウト結果 z(t-1) です。その詳細な構造は、2 つの完全結合 (FC) 層と N 個の変換モジュールで構成されます。まず、zt は FC 層によって要素表現 et にマッピングされます。次に、N 個の変換モジュールを通過した後、処理された要素表現は別の FC 層によって zt-1 にデコードされます。各変換モジュールでは、時間ステップ t と要素表現 et は、適応正規化層 (AdaLN) と自己注意層 (SA) によって処理されます。最後に、クロス注意層 (CA) を使用して、自己注意層の出力と視覚的特徴および言語的特徴を計算します。

4.3 レンダリングネットワークに基づく背景生成

計画ネットワークによって出力されたレイアウト結果を取得した後、レンダリングネットワークはそれらと製品画像を入力として受け取り、最終的なポスター画像を出力します。具体的には、レイアウトブランチ、視覚ブランチ、安定拡散（SD）、ControlNet、およびテキストレンダリングモジュールが含まれます。レイアウトブランチは、各視覚要素のレイアウトをエンコードします。レイアウトの空間情報をより適切に表現するために、計画ネットワークによって出力されたレイアウト座標をレイアウトマスク画像{Lm}に変換します。ここで、mの範囲は1からMまでで、Mは視覚要素カテゴリの数です。Lmの場合、m番目のカテゴリレイアウト要素の位置は1で埋められ、残りの位置は0で埋められます。M個のレイアウトの空間関係をより適切に調査するために、空間融合モジュールを提案します。

上の図に示すように、このモジュールはまず3層の畳み込みネットワークを使用して{Lm}をエンコードし、C×H×Wの特徴形状を生成します。次に、エンコードされた{Lm}を統合して、統一されたレイアウト表現L'を生成します。具体的には、エンコードされた{Lm}は、C×P×Pの形状を持つ複数のブロック{lm,j}に分割されます。ここで、jは1からW×H/P/Pまでのブロック番号です。L'のj番目のブロックを取得するために、エンコードされた{Lm}のj番目のブロックを統合します。次に、統合された特徴はS層のビジュアルトランスフォーマーに入力されます。最後に、3層の畳み込みネットワークを使用して、最終的なレイアウト表現ZLを取得します。

視覚分岐の目的は、製品の視覚情報と空間情報を符号化することです。本発明はまず、プランニングネットワークの出力に基づいて製品画像をスケーリングおよび変換し、再配置された製品画像Vを取得します。次に、6層畳み込みネットワークを用いてVの視覚表現ZVを抽出します。最後に、視覚表現とレイアウト表現を合計し、ControlNetに入力してSD生成プロセスをガイドします。

要約と展望

5.1 技術的アプローチの概要

AIGC の広告画像におけるセールスポイント情報の不足、スケーリングとパーソナライゼーションの難しさ、セールスポイントの表示の不都合といった問題に対処するため、JD.com の広告部門は次の技術的ソリューションを提案しました。

まず、レイアウトポスター生成のための関係性を考慮した拡散モデルを構築しました。このモデルでは、グラフィックとテキストの関係性を考慮したモジュールを使用して、ビジュアルとテキスト間のモダリティを調整し、幾何学的関係性を考慮したモジュールを使用して、要素間のコンテキスト情報を包括的に考慮して、要素間の幾何学的関係を学習します。

第二に、カテゴリの共通性とパーソナライズされたスタイルを拡散モデルに統合します。大規模な背景生成を実現するカテゴリ生成器を提案し、パーソナライズされた生成器を用いて参照画像からパーソナライズされたスタイルを学習します。

最後に、P&Rと呼ばれるグラフィックとテキストのクリエイティブ生成フレームワークを提案します。これは、プランニングとレンダリングの2つのフェーズで構成されています。プランニングフェーズでは、PlanNetネットワークを用いて製品の視覚的特徴とテキストの意味的特徴を考慮し、製品やその他の視覚的要素のレイアウトを生成します。レンダリングフェーズでは、RenderNetネットワークを用いて、生成されたレイアウトを考慮しながら製品の背景を生成します。このプロセスでは、異なる視覚的要素のレイアウトを融合するための空間融合モジュールが導入されています。

5.2 将来の技術展望

AIGC技術は画像生成分野で広く利用されていますが、解決すべき課題は依然として多く残されています。今後、私たちは以下の方向性でこの技術を探求していきます。

制御可能性:製品の内容と外観に関する理解が不足しているため、業界で生成される素材は制御性の点で不利であり、ユーザーからの苦情により広告分野での適用が危険になります。

マルチモーダル:テキスト、画像、ビデオなどの要素を効果的に統合して、一貫性と強力な内部ロジックを備えたクリエイティブな製品を作成する方法など、さまざまなモダリティのコンテンツを処理および統合するテクノロジの能力を最適化します。

パーソナライゼーション:さまざまなユーザーグループをターゲットにし、ユーザーデータと行動分析を使用して、特定のユーザーの嗜好や好みに合ったパーソナライズされた広告クリエイティブを生成します。

参考文献

【1】制御可能なポスターレイアウト生成のための関係を考慮した拡散モデル。第32回ACM国際情報・知識管理会議論文集。

【2】カテゴリーの共通性とパーソナライズされたスタイルを統合してEコマース製品の背景を生成する。arXiv:2312.13309。

【3】計画とレンダリング：エンドツーエンドの製品ポスター生成に向けて。arXiv:2312.08822。

HUOXIU

JD.com広告研究開発 – AIGCのJD.com広告クリエイティビティにおける技術応用

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ