|
最近、アリババクラウドの機械学習プラットフォーム(PAI)は、復旦大学の肖陽華教授チームおよびアリババの国際貿易事業ユニット(ICBU)と共同で、eコマースのマルチモーダル概念知識グラフを強化したeコマースシナリオベースの画像テキストモデル「FashionKLIP」を、自然言語処理の最高峰カンファレンス「ACL 2023」で発表しました。FashionKLIPは、eコマースの知識強化のための視覚言語モデルです。この論文ではまず、大規模なeコマース画像テキストデータからマルチモーダル概念知識グラフを自動的に構築するスキームを設計します。次に、概念レベルのマルチモーダル事前知識をVLPモデルに注入することで、クロスモーダル画像テキストサンプルを概念レベルでさらに整合させます。 紙: 背景画像とテキストの検索は、一般的なクロスモーダルタスクとして、幅広い産業用途で高い実用価値を持っています。視覚言語事前学習(VLP)モデルの急速な発展により、異なるモダリティ間の表現学習が大幅に改善され、パフォーマンスが大幅に向上しました。しかし、下の図(a)に示すように、eコマースデータには独自の特性があります。1)一般的なシナリオのテキストはほとんどが完全な文構造で構成されていますが、eコマースシナリオの説明やクエリは通常、製品の素材やスタイルなどの詳細を説明する複数の説明フレーズで構成されています。2)一般的なシナリオの画像は複雑な背景を持つことが多いですが、対照的に、製品画像は主に背景オブジェクトの少ない大きな製品画像で構成されています。 (a) 電子商取引のシナリオにおける画像とテキストのペアの例 Fashion-BERT、KaleidoBERT、CommerceMM、EI-CLIP、FashionViLなど、eコマースの画像とテキストに基づくVLPモデルは、eコマースの画像とテキストの検索タスクのパフォーマンスを大幅に向上させました。しかし、異なる角度からの商品画像や画像パッチベースの分類手法を用いた場合、きめ細かなクロスモーダルアライメントの問題を解決できず、画像とテキスト間の詳細なマッチングが不正確になり、クロスモーダルな意味レベルのアライメント機能が不足しています。また、一般ドメインモデルは、オブジェクト検出、シーングラフ解析、意味解析などを通じてきめ細かなインタラクションを実現できますが、これらの手法をeコマースのシナリオに直接適用することは困難であり、eコマースにおける画像とテキストの検索タスクをさらに困難にしています。 これに基づき、eコマース向けの知識強化型VLPモデル「FashionKLIP」を提案します。これは2つの部分から構成されます。1つは、大規模なeコマーステキスト画像コーパスからマルチモーダルeコマース概念知識グラフ(FashionMMKG)を構築するデータ駆動型構築戦略、もう1つは、2つのモダリティ間の画像とテキストのペア表現のアライメントを学習し、さらにFashionMMKG内のファッション概念の視覚プロトタイプ表現とテキスト表現を一致させることで概念のアライメントを実現する知識統合型トレーニング戦略です。 モデル設計このモデルは、図 (b) に示すように 2 つの部分で構成されています。最初の部分では、FashionMMKG マルチモーダル知識グラフを構築します。これは、大量のファッションテキストを分析して概念セットを抽出および決定し、階層ツリーを構築して異なる粒度の概念間の関係を表示し、各概念を正しい画像と視覚的に一致させることを含みます。第 2 段階では、クロスモーダル知識を使用したきめ細かいトレーニングを組み込んでいます。これは、入力テキストの概念を FashionMMKG に一致させるだけでなく、新しく抽出された概念を対応する概念階層ツリーに追加することでモデルを拡張します。各概念について、多様性を考慮して入力画像に最も類似した上位 10 個の画像を視覚的なプロトタイプとして選択し、概念レベルでアライメントの最適化を実行します。 (b) 電子商取引の画像とテキストを入力とするFashionKLIPモデルアーキテクチャ FashionMMKGビルド自動化された構築方法を使用して、テキスト形式と視覚形式の両方を含む、電子商取引の概念を中心としたマルチモーダル知識グラフを構築します。
(c) 「shorts」をルートノードとする階層サブツリー構造
FashionKLIPトレーニング前処理段階では、入力テキストの概念抽出が行われ、FashionMMKGの概念セットと一致しない新たに出現した概念については、FashionMMKGが自動的に拡張されます。FashionKLIPモデルは、画像エンコーダとテキストエンコーダの両方を含む2ストリームアーキテクチャであり、下流の検索タスクにおける画像とテキストのマッチング効率を高めます。 図 (b) に示すように、FashionKLIP は、画像とテキストのグローバル マッチングを行う Image-Text Contrast Learning (ITC) と、概念レベルのアライメントを行う Concept-Visual Alignment Learning (CVA) の 2 つのタスクで構成されています。
モデル評価FashionKLIPモデルの性能を評価するため、人気のファッションベンチマークデータセットFashionGenを用いて実験を行いました。既存のSOTAモデル評価手法に基づき、「フル」と「サンプル」の2つの評価設定を採用しました。実験結果は以下の通りです。 FashionGenデータセットにおける画像とテキストの検索評価結果「サンプル」 FashionGen データセットの画像テキスト検索評価結果は「完全」です。 2 つの評価設定での実験結果から、FashionKLIP が電子商取引の画像およびテキスト検索タスクにおいて最先端のモデルよりも優れていることがわかりました。 FashionKLIP法の実用性をさらに検証するため、実際のシナリオである商品検索プラットフォームにも適用しました。画像から商品を検索、テキストから商品を検索という2つのサブタスクについてゼロショット検証を実施し、その結果をベースライン手法であるCLIPと比較しました。実験結果は以下の通りです。 製品検索タスクの検索結果 上記の結果は、FashionKLIPの実用的価値と効率性をさらに実証しています。今後、知識拡張戦略を一般的な大規模事前学習に適用することで、より多くのマルチモーダルタスクにメリットをもたらす予定です。オープンソースコミュニティへの貢献を強化するため、FashionKLIPアルゴリズムのソースコードとモデルは、自然言語処理フレームワークEasyNLPに近日中に提供される予定です。実務家や研究者の皆様にご活用いただければ幸いです。 参考文献
論文情報論文名: FashionKLIP: ファッションのマルチモーダル概念知識グラフによる電子商取引の画像テキスト検索の強化。 論文著者: Wang Xiaodan、Wang Chengyu、Li Lei、Li Zhixu、Chen Ben、Jin Linbo、Huang Jun、Xiao Yanghua、Gao Ming。論文のPDFリンク: |