|
最近、アリババクラウドのAIプラットフォームPAIは、華南理工大学の金連文教授のチームと協力し、自然言語処理の最高峰カンファレンスであるACL 2024で「DiffChat:テキスト画像合成モデルを用いたチャット学習によるインタラクティブ画像作成。ACL 2024」と題した論文を発表しました。DiffChatアルゴリズムは、マルチターンのテキストからテキストへの生成モデルであり、ユーザーの指示に基づいて元のプロンプトを適切に修正して新しいプロンプトを取得することで、テキストから画像への生成モデルが指示に適合した、より美しい画像を生成することを可能にします。このプロセス全体を通して、ユーザーとテキストから画像への生成モデル間の反復的なインタラクションが実現され、最終的にユーザーの創造的ニーズを満たします。 背景拡散モデル(安定拡散など)に基づくテキスト画像生成モデルの性能は、入力テキスト、すなわちプロンプトの影響を受けることがあります。ユーザーが生成した画像に対して特定のニーズを持っている場合や、特定のコンテンツ変更を実行したい場合、通常、プロンプトを繰り返し変更する必要があり、各試行の結果は予測できません。これは、時間と計算リソースの大幅な消費につながります。この問題に対処するため、私たちは、ユーザーのニーズと指示に基づいて、元のプロンプトを自動的かつ適切に変更できる手法を設計することを目指しています。 自動データ収集ソリューションDiffChatモデルの目標は、元のキューワード/画像とユーザーからの指示に基づいて、インタラクティブな画像作成のためのターゲットキューワードを生成することです。これを実現するには、まず関連性の高いデータセットを構築する必要があります。この課題に対処するため、まずキューワード強化モデルを作成しました。オープンソースリソースから、現実世界の高品質なキューワードを大量に収集しました。次に、ChatGPTにこれらの高品質なキューワードを簡略化されたキューワードに要約するよう依頼しました。こうして得られた大量の<簡略化された高品質な>キューワードペアは、BLOOM-1.1Bモデルをキューワード強化モデルとして微調整するために活用されます。 アルゴリズムアーキテクチャ収集されたデータセットには必然的にノイズが含まれるため(例えば、ターゲットプロンプトが対応する入力プロンプトや指示に厳密に従わない場合など)、微調整されたモデルのパフォーマンスは満足のいくものではない可能性があります。モデルをさらに改善するために、強化学習アルゴリズムを用いてパフォーマンスを向上させます。近似方策最適化(PPO)に基づく強化学習アルゴリズムでは、エージェントモデルは環境から報酬フィードバックを得て、望ましい方向に方策を更新する必要があります。しかし、私たちのタスクでは、報酬は画像作成に関するユーザーの懸念を反映する必要があります。 これに応えて、私たちはユーザーが重視する 3 つの標準を設計しました。 (1)美観。作成された画像の美的評価を表す。 (2)嗜好。これは、ユーザーが特定の画像を他の画像と比較してどの程度好んでいるかを表します。 (3)内容の完全性。ターゲットキューワードに含まれる主要内容の完全性を評価する。 私たちの目標は、既存のAIモデルと独自に設計したヒューリスティックを用いて、生成された画像結果を自動的にスコアリングし、手作業によるアノテーションというコストのかかる労力を回避することです。具体的には、美的評価基準として美的スコア、嗜好評価基準としてPickScoreを使用します。さらに、独自のコンテンツ完全性スコアも設計しました。このスコアは、プロンプトや指示から重要な情報をヒューリスティックに抽出し、対象となるプロンプトにおけるこれらの重要な情報の包含と完全性が閾値を満たしているかどうかに基づいて、報酬を付与するかどうかを決定します。 実験結果DiffChatのバックボーンネットワークとして、BLOOM-1.1Bを用いて実験を行いました。この比較的小規模なバージョンは、実世界のアプリケーションをサポートするために高い推論効率を確保するために選択されました。私たちのアプローチは、特定のモデルの選択に依存しません。 プロンプトワード生成モデルの性能を体系的に評価することは困難な作業です。最も直接的な方法の一つは、モデルが生成したプロンプトワードを用いて生成された画像を自動的に評価することです。私たちは、Stable Diffusion 1.5、Deliberate、Dreamlike、Realistic、Stable Diffusion XL 1.0などのモデルを用いて結果を検証しました。結果は以下の表に示されています。 我々のアルゴリズムは、複数の既存のテキストベースの画像モデルと連携して高画質を実現できることが分かります。これは、DiffChatアルゴリズムの優位性を実証しています。InstructPix2Pixと比較した例を以下に示します。 参考文献
論文情報論文名: DiffChat: インタラクティブな画像作成のためのテキスト画像合成モデルによるチャット学習 著者:王家鵬、王成宇、曹庭峰、黄軍、金蓮文 論文PDFリンク: https://arxiv.org/abs/2403.04997 Alibaba Cloudの人工知能プラットフォーム(PAI)は、研究インターンを継続的に募集しています。チームは深層学習アルゴリズムの研究と応用に注力しており、特に大規模言語モデルとマルチモーダルAIGC大規模モデルへの応用アルゴリズムに重点を置いています。履歴書の提出やお問い合わせは、[email protected]までご連絡ください。 |