HUOXIU

[CVPR 2024] Stable Diffusion の編集アルゴリズムである FreePromptEditing により、画像編集の結果が向上します。

最近、アリババクラウドのAIプラットフォームPAIは、華南理工大学の賈奎教授のチームと共同で、ディープラーニングのトップカンファレンスであるCVPR 2024において、FPE(Free-Prompt-Editing)アルゴリズムを発表しました。このアルゴリズムはStableDiffusionをベースとし、画像編集に焦点を当てています。論文では、StableDiffusionを画像編集に用いることの本質を探り、StableDiffusionに基づくアルゴリズムの基本的な性質を説明・証明し、画像編集の効率を大幅に向上させる新しい画像編集アルゴリズムを設計しています。

論文:Bingyan Liu、Chengyu Wang、Tingfeng Cao、Kui Jia、Jun Huang。テキスト誘導画像編集における安定拡散における相互注意と自己注意の理解に向けて。CVPR 2024

背景

近年、Stable Diffusion、DALL-E 2、Imagen などのテキスト画像合成 (TIS) モデルは、テキスト記述を視覚画像に変換する上で優れた性能を示し、学界と産業界の両方から大きな関心を集めています。これらのモデルは、大規模な画像とテキストのペアのデータセット (Laion など) でトレーニングされ、大規模な事前トレーニング済み言語モデル、変分オートエンコーダー、拡散モデルなどの最先端技術を統合しており、リアルで詳細な画像を生成することができます。特に Stable Diffusion は、画像生成において広く普及しているだけでなく、オープンソースコミュニティにも大きく貢献しています。これらの TIS モデルは、生成能力に加えて、強力な画像編集機能も備えています。高画質と自然さを維持しながらコンテンツを変更できるため、テキストベースのプロンプト編集の可能性を深く研究し、活用することが重要です。現在、Prompt-to-Prompt(P2P)などの人気のトレーニング不要の画像編集手法では、ターゲット編集語に関連するソースプロンプトの相互注意マップを置き換えることで、画像内の変更が必要であることを示す領域を特定します。ただし、ソース画像の相互注意マップを変更すると、予期しない結果が生じる可能性があります。同様に、プラグアンドプレイ(PnP)方式は、元の画像から空間的特徴と自己注意特徴を抽出し、これらの特徴をターゲット画像の生成プロセスに注入します。ただし、この操作が適切に処理されない場合、満足のいく結果が得られない可能性もあります。たとえば、相互注意層で編集を実行すると、人間の画像をロボット画像に編集したり、車の色を赤に変更したりできない場合があります。これらの失敗は、注意層の不適切な処理が原因である可能性があります。

図1. 画像編集に失敗した事例と提案手法による編集成功例。

現在普及している画像編集アルゴリズムはある程度の画像編集が可能ですが、これらの手法は依然として、相互注意マップと自己注意マップの意味の解釈と探究が不足しています。拡散モデルにおける注意マップの意味を探求し、解釈するために、本論文では次のような疑問を提起します。テキスト条件付き拡散モデルにおける注意マップは、単なる重み行列なのか、それとも画像の特徴情報も含んでいるのか。これらの疑問に答えるために、プローブ分析実験を通して注意マップを探索します。

注意マッププローブ分析

我々のプローブ実験の核となる考え方は、分類器が異なるカテゴリの注意マップを正確に分類できる場合、その注意マップにはカテゴリ情報の意味ある特徴表現が含まれているというものです。プローブ実験の有効性をより直感的に示すために、色と動物のカテゴリに関連する単語で構成されたテキストを選択し、色と動物の単語に対応する相互注意マップと、自己注意層内の自己注意マップをメタデータとして抽出しました。色形容詞に使用したプロンプトテンプレートは「a/ancar」、動物名詞に使用したプロンプトテンプレートは「a/anstanding in the park」でした。さらに、「a/an<object>」、「車と犬の写真」、「男性と車」といった複雑なテンプレートを用いた実験など、他の種類のテンプレートも構築しました。具体的な実験結果については、論文をご覧ください。

プローブ実験の結果と結論

異なるレイヤーにおけるクロスアテンションマップ、セルフアテンションマップ、そして編集されていない単語のクロスアテンションマップに対してプローブ実験を実施しました。結果は以下の通りです。

結果は以下のとおりです。(1) 拡散モデルにおけるクロスアテンションマップの編集は、画像編集においてオプションです。ソース画像とターゲット画像の生成中にクロスアテンションマップを置き換えたり改善したりすることは不要であり、画像編集の失敗につながる可能性があります。(2) クロスアテンションマップは、生成された画像内の対応する位置における条件付きキューの重み測定値であるだけでなく、条件付きラベルの意味的特徴も含んでいます。そのため、ターゲット画像をソース画像のクロスアテンションマップに置き換えると、予期しない結果が生じる可能性があります。(3) 自己注意マップは、画像特徴間の相関関係を反映し、画像の空間情報を保持するため、TIEタスクの成功に不可欠です。以下は、異なる注意マップを使用して画像編集を行った実験結果です。

図2. 異なる拡散モデルの注意層上の相互注意マップと自己注意マップを置き換えることによる画像編集の実験結果。

図 3. クロスノート図を使用して編集ヒント内のさまざまなトークンを置き換えた結果。

「-」記号はマイナス記号です。「- a」は「a」に対応するクロスアテンションマップを減算することを示します。図2の上部は、異なるクロスアテンションレイヤーにおける単語(「rabbit」や「coral」など)の置換後の編集結果を示しています。すべてのクロスアテンションレイヤーを置換した場合、結果は最も理想的ではありません。相対的に言えば、クロスアテンションマップを変更しない方が、より正確な編集効果が得られます。図2の下部は、異なるセルフアテンションレイヤーに対する操作の実験結果を示しています。ターゲット画像生成時にソース画像のすべてのレイヤーのセルフアテンションマップを置換すると、生成された画像は元の画像の構造情報を保持しますが、編集目的を完全に達成できません。逆に、セルフアテンションマップを全く置換しない場合、最終画像はターゲットプロンプトに基づいて直接生成された画像と一致します。妥協案として、レイヤー4から14のセルフアテンションマップを置換することにしました。この手法は、元の画像の構造情報を可能な限り保持しながら、編集を成功させることを保証します。図3は、編集対象外の単語に対応するクロスアテンションマップを置き換えただけでも編集が失敗する可能性があることを示しており、画像編集におけるアテンションマップ操作の複雑さと繊細さを浮き彫りにしています。

アルゴリズムアーキテクチャ

プローブ実験の結果に基づいて、現在普及している画像編集アルゴリズムを最適化し、より直接的で安定した効率的な方法であるフリープロンプト編集(FPE)を提案する。 FPEの核となる考え方は、ソース画像の空間レイアウトと内容を、ターゲットテキストプロンプトから合成された意味情報と組み合わせて、目的のターゲット画像を合成することである。 FPEにおけるソース画像とターゲット画像間のノイズ除去プロセス中に、拡散モデルの注意層4~14で自己注意置換メカニズムが採用されている。 合成画像編集の場合、FPEは拡散ノイズ除去中にターゲット画像の自己注意マップをソース画像の自己注意マップに置き換えます。 実画像を編集する場合、FPEはまずDDIM反転演算を使用して実画像を再構築するために必要な潜在的特徴を取得する。 その後、編集プロセス中に、ターゲット画像の生成中に実画像の自己注意マップを置き換えます。 FPEがTIEタスクを完了できる理由は次のとおりです。1) クロスアテンションメカニズムは、合成画像とターゲットプロンプトの融合を容易にし、ソースプロンプトのクロスアテンションマップを導入することなく、ターゲットプロンプトと画像を自動的に位置合わせすることさえ可能にします。2) セルフアテンションマップには、ソース画像の空間レイアウトと形状の詳細が含まれており、セルフアテンションメカニズムは、ソース画像から生成されたターゲット画像に構造情報を注入することを可能にします。アルゴリズムフレームワークと擬似コードは次のとおりです。

図 4. 合成画像を編集するためのフリープロンプト編集プロセスの概略図。

図 5: 合成画像と実際の画像編集シナリオにおける自由指示編集の疑似コード。

実験結果

図 6 は、元の画像のさまざまな属性、スタイル、シーン、カテゴリを正常に変換した FPE の編集結果を示しています。

図6: フリープロンプト編集の結果の例

図7は、安定拡散アルゴリズムに基づく他のカスタムモデルにFPE技術を適用した編集効果を示しています。これらの結果から、FPE技術は様々な拡散モデルに効率的に適用できることがわかります。女の子を男の子に変える性転換だけでなく、キャラクターの年齢調整も可能で、男の子を10歳や80歳に見せることができます。さらに、髪型や髪色の変更、背景の置き換え、さらにはカテゴリの変更も可能です。

図7: フリープロンプト編集の結果の例

図8は、FPEと他の最先端の画像編集技術を比較対照したものです。FPEは、実写写真と合成画像の両方において効率的な編集能力を発揮します。いずれの場合も、FPEは元の画像の構造的詳細を可能な限り保持しながら、説明プロンプトと非常に整合性の高い詳細な編集を実現します。

図8: フリープロンプト編集と他の編集方法の比較

以下の表は、Wild-TI2IおよびImageNet-R-TI2Iベンチマークにおける様々な編集アルゴリズムの定量的な実験結果を示しています。CDS指標において、本手法は他の全ての手法を大幅に上回っていることがわかります。これは、本手法が元の画像の空間構造を良好に保持し、ターゲットキューの要件に応じて編集することで良好な結果を生み出していることを示しています。同時に、本手法は処理時間と効率性のバランスも良好です。

より詳細な実験結果と考察については、論文「テキスト誘導画像編集における安定拡散における相互注意と自己注意の理解に向けて」をご覧ください。Free-Prompt-Editingは現在、EasyNLP (https://github.com/alibaba/EasyNLP/tree/master/diffusion/FreePromptEditing) でオープンソース化されています。ぜひ皆様のお試しをお待ちしております。

参考文献

  • Rombach R, Blattmann A, Lorenz D, et al. 潜在拡散モデルを用いた高解像度画像合成[C]//IEEE/CVFコンピュータビジョンおよびパターン認識会議論文集。2022: 10684-10695。

  • Hertz A, Mokady R, Tenenbaum J, et al. クロスアテンション制御によるプロンプト間画像編集[J]. arXivプレプリントarXiv:2208.01626, 2022.

  • Brooks T、Holynski A、Efros AA. Instructpix2pix: 画像編集指示に従うことの学習[C]//IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録。2023: 18392-18402。

  • Cao M, Wang X, Qi Z, et al. Masactrl: 一貫性のある画像合成と編集のためのチューニングフリーの相互自己注意制御[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 22560-22570.

  • Tumanyan N, Geyer M, Bagon S, et al. テキスト駆動型画像間変換のためのプラグアンドプレイ拡散特徴[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 1921-1930.

  • Meng, Chenlin他「SDEdit:確率微分方程式を用いたガイド付き画像合成および編集」国際表現学習会議(2021年)。

  • Park DH, Luo G, Toste C, et al. 内側と外側の注意を考慮した形状誘導拡散[C]//IEEE/CVF Winter Conference on Applications of Computer Visionの議事録。2024: 4198-4207。

  • Parmar G, Kumar Singh K, Zhang R, et al. ゼロショット画像間変換[C]//ACM SIGGRAPH 2023 会議論文集. 2023: 1-11.

  • Couairon G, Verbeek J, Schwenk H, et al. Diffedit: マスクガイダンスによる拡散ベースのセマンティック画像編集[J]. arXiv プレプリント arXiv:2210.11427, 2022.

論文情報

論文タイトル: テキスト誘導画像編集における安定拡散における相互注意と自己注意の理解に向けて 著者: Bingyan Liu、Chengyu Wang、Tingfeng Cao、Kui Jia、Jun Huang PDF リンク: https://arxiv.org/abs/2403.03431