最近、アリババクラウドの機械学習プラットフォーム（PAI）は、復旦大学の肖陽華教授チームおよびアリババの国際貿易事業ユニット（ICBU）と共同で、eコマースのマルチモーダル概念知識グラフを強化したeコマースシナリオベースの画像テキストモデル「FashionKLIP」を、自然言語処理の最高峰カンファレンス「ACL 2023」で発表しました。FashionKLIPは、eコマースの知識強化のための視覚言語モデルです。この論文ではまず、大規模なeコマース画像テキストデータからマルチモーダル概念知識グラフを自動的に構築するスキームを設計します。次に、概念レベルのマルチモーダル事前知識をVLPモデルに注入することで、クロスモーダル画像テキストサンプルを概念レベルでさらに整合させます。

紙：
Xiaodan Wang、Chengyu Wang、Lei Li、Zhixu Li*、Ben Chen、Linbo Jin、Jun Huang、Yanghua Xiao*、Ming Gao、FashionKLIP: ファッションマルチモーダル概念ナレッジグラフによる電子商取引画像テキスト検索の強化。 ACL 2023 (インダストリートラック)

背景

画像とテキストの検索は、一般的なクロスモーダルタスクとして、幅広い産業用途で高い実用価値を持っています。視覚言語事前学習（VLP）モデルの急速な発展により、異なるモダリティ間の表現学習が大幅に改善され、パフォーマンスが大幅に向上しました。しかし、下の図（a）に示すように、eコマースデータには独自の特性があります。1）一般的なシナリオのテキストはほとんどが完全な文構造で構成されていますが、eコマースシナリオの説明やクエリは通常、製品の素材やスタイルなどの詳細を説明する複数の説明フレーズで構成されています。2）一般的なシナリオの画像は複雑な背景を持つことが多いですが、対照的に、製品画像は主に背景オブジェクトの少ない大きな製品画像で構成されています。

(a) 電子商取引のシナリオにおける画像とテキストのペアの例

Fashion-BERT、KaleidoBERT、CommerceMM、EI-CLIP、FashionViLなど、eコマースの画像とテキストに基づくVLPモデルは、eコマースの画像とテキストの検索タスクのパフォーマンスを大幅に向上させました。しかし、異なる角度からの商品画像や画像パッチベースの分類手法を用いた場合、きめ細かなクロスモーダルアライメントの問題を解決できず、画像とテキスト間の詳細なマッチングが不正確になり、クロスモーダルな意味レベルのアライメント機能が不足しています。また、一般ドメインモデルは、オブジェクト検出、シーングラフ解析、意味解析などを通じてきめ細かなインタラクションを実現できますが、これらの手法をeコマースのシナリオに直接適用することは困難であり、eコマースにおける画像とテキストの検索タスクをさらに困難にしています。

これに基づき、eコマース向けの知識強化型VLPモデル「FashionKLIP」を提案します。これは2つの部分から構成されます。1つは、大規模なeコマーステキスト画像コーパスからマルチモーダルeコマース概念知識グラフ（FashionMMKG）を構築するデータ駆動型構築戦略、もう1つは、2つのモダリティ間の画像とテキストのペア表現のアライメントを学習し、さらにFashionMMKG内のファッション概念の視覚プロトタイプ表現とテキスト表現を一致させることで概念のアライメントを実現する知識統合型トレーニング戦略です。

モデル設計

このモデルは、図 (b) に示すように 2 つの部分で構成されています。最初の部分では、FashionMMKG マルチモーダル知識グラフを構築します。これは、大量のファッションテキストを分析して概念セットを抽出および決定し、階層ツリーを構築して異なる粒度の概念間の関係を表示し、各概念を正しい画像と視覚的に一致させることを含みます。第 2 段階では、クロスモーダル知識を使用したきめ細かいトレーニングを組み込んでいます。これは、入力テキストの概念を FashionMMKG に一致させるだけでなく、新しく抽出された概念を対応する概念階層ツリーに追加することでモデルを拡張します。各概念について、多様性を考慮して入力画像に最も類似した上位 10 個の画像を視覚的なプロトタイプとして選択し、概念レベルでアライメントの最適化を実行します。

(b) 電子商取引の画像とテキストを入力とするFashionKLIPモデルアーキテクチャ

FashionMMKGビルド

自動化された構築方法を使用して、テキスト形式と視覚形式の両方を含む、電子商取引の概念を中心としたマルチモーダル知識グラフを構築します。

テキストモダリティ：膨大な量のファッションテキストをマイニングすることで概念セットを決定し、各概念を対応する画像とマッチングさせます。画像・テキスト電子商取引データベースからすべてのテキストを抽出し、NLPツールSpacyを用いて文の構成要素分析と品詞タグ付けを行い、多粒度の概念フレーズを取得します。異なる粒度の概念フレーズについては、2つの概念が互いに包含関係にあるかどうかを判定することで、概念間にトリプル形式の階層関係を構築します。例えば、図(b)では、<"short sleeve T-shirt in white", is-a, "short sleeve T-shirt">です。抽出されたすべての関係トリプルは、図(c)に示すように階層構造に整理されます。階層構造の構築プロセスは動的であり、新しい概念が出現すると、既存の階層ツリーに追加されます。

視覚モダリティ：各概念に対応する画像をマッチングするために、手がかりに基づく画像検索手法を採用しています。画像とテキスト特徴間のコサイン距離に基づき、類似度が最も高い上位の画像を各概念の視覚プロトタイプとして選択し、MMRアルゴリズムを用いて選択された画像の多様性を確保します。このプロセスは、その後のトレーニングで反復的に更新されます。

FashionKLIPトレーニング

前処理段階では、入力テキストの概念抽出が行われ、FashionMMKGの概念セットと一致しない新たに出現した概念については、FashionMMKGが自動的に拡張されます。FashionKLIPモデルは、画像エンコーダとテキストエンコーダの両方を含む2ストリームアーキテクチャであり、下流の検索タスクにおける画像とテキストのマッチング効率を高めます。

図 (b) に示すように、FashionKLIP は、画像とテキストのグローバルマッチングを行う Image-Text Contrast Learning (ITC) と、概念レベルのアライメントを行う Concept-Visual Alignment Learning (CVA) の 2 つのタスクで構成されています。

ITC: CLIPスタイルのモデルを訓練し、画像とテキストのペアのグローバル表現を学習させました。訓練バッチ内の各画像とテキストのペアについて、画像とテキスト、およびテキストと画像のペアのコントラストマッチング損失を最適化しました。
CVA: FashionMMKGでは、ファッションコンセプトと視覚表現を整合させるために、統合された対照学習フレームワークを活用しています。入力テキストから抽出した多粒度の概念フレーズ群をモデルに統合し、さらに階層ツリーから各概念の親ノードを導入します。各概念とその最も類似する画像について、各画像と入力画像との類似度を計算し、最も高いスコアを持つ画像群を選択します。概念画像と入力画像との類似度を重みとして用いる重み付きクロスエントロピー損失を用いて、概念と最も一致する概念画像とのクロスエントロピー損失を計算します。

モデル評価

FashionKLIPモデルの性能を評価するため、人気のファッションベンチマークデータセットFashionGenを用いて実験を行いました。既存のSOTAモデル評価手法に基づき、「フル」と「サンプル」の2つの評価設定を採用しました。実験結果は以下の通りです。

FashionGenデータセットにおける画像とテキストの検索評価結果「サンプル」

FashionGen データセットの画像テキスト検索評価結果は「完全」です。

2 つの評価設定での実験結果から、FashionKLIP が電子商取引の画像およびテキスト検索タスクにおいて最先端のモデルよりも優れていることがわかりました。

FashionKLIP法の実用性をさらに検証するため、実際のシナリオである商品検索プラットフォームにも適用しました。画像から商品を検索、テキストから商品を検索という2つのサブタスクについてゼロショット検証を実施し、その結果をベースライン手法であるCLIPと比較しました。実験結果は以下の通りです。

製品検索タスクの検索結果

上記の結果は、FashionKLIPの実用的価値と効率性をさらに実証しています。今後、知識拡張戦略を一般的な大規模事前学習に適用することで、より多くのマルチモーダルタスクにメリットをもたらす予定です。オープンソースコミュニティへの貢献を強化するため、FashionKLIPアルゴリズムのソースコードとモデルは、自然言語処理フレームワークEasyNLPに近日中に提供される予定です。実務家や研究者の皆様にご活用いただければ幸いです。
EasyNLPオープンソースフレームワーク:

参考文献

Dehong Gao、Linbo Jin、Ben Chen、Minghui Qiu、Peng Li、Yi Wei、Yi Hu、Hao Wang。 FashionBERT: クロスモーダル検索のための適応損失を使用したテキストと画像のマッチング。 ACM SIGIR、2020: 2251-2260。
M 諸葛、D 高、DP ファン、L ジン、B チェン、H 周、M 秋、L シャオ。 Kaleido-BERT: ファッション領域の視覚言語事前トレーニング。 CVPR、2021: 12647-12657。
Radford A, Kim JW, Hallacy C, 他「自然言語教師からの転移可能な視覚モデルの学習」PMLR ICML, 2021: 8748--8763.
Rostamzadeh N, Hosseini S, Boquet T, et al. Fashion-gen: 生成的ファッションデータセットと課題. arXiv, 2018.
Yu L、Chen J、Sinha A、他「Commercemm：オムニ検索による大規模コマース向けマルチモーダル表現学習」ACM SIGKDD、2022年：4433-4442。
Ma H、Zhao H、Lin Z、他「EI-CLIP：Eコマースクロスモーダル検索のためのエンティティを考慮した介入的対照学習」CVPR、2022：18051-18061。

論文情報

論文名: FashionKLIP: ファッションのマルチモーダル概念知識グラフによる電子商取引の画像テキスト検索の強化。

論文著者: Wang Xiaodan、Wang Chengyu、Li Lei、Li Zhixu、Chen Ben、Jin Linbo、Huang Jun、Xiao Yanghua、Gao Ming。論文のPDFリンク:

HUOXIU

[ACL2023] FashionKLIP: Eコマースマルチモーダル概念知識グラフ拡張に基づくEコマースシナリオグラフとテキストモデル

背景

モデル設計

FashionMMKGビルド

FashionKLIPトレーニング

モデル評価

参考文献

論文情報

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ