|
最近、アリババクラウドの機械学習プラットフォーム(PAI)は、華南理工大学の金連文教授のチームと協力し、自然言語処理のトップカンファレンスであるACL 2023において、軽量テキストおよび画像検索のためのデュアルエンコーダモデル蒸留アルゴリズム「ConaCLIP(CLIP向け完全接続型知識相互作用グラフ)」を発表しました。ConaCLIPは軽量テキストおよび画像検索タスク向けに設計されており、完全接続型知識相互作用グラフ学習アプローチを通じて、大規模なデュアルエンコーダモデルからより小規模なデュアルエンコーダモデルへと知識を蒸留するアルゴリズムです。 紙: Jiapeng Wang、Chengyu Wang、Xiaodan Wang、Jun Huang、Lianwen Jin. ConaCLIP: 軽量テキスト・画像検索のための全結合知識インタラクショングラフの抽出の検討. ACL 2023 (インダストリートラック) 背景テキスト画像検索は、特定のテキストクエリに基づいて、大規模な画像コレクションから最も関連性の高い画像のリストを取得することを目的としています。情報インタラクションとソーシャルシナリオの急速な発展に伴い、このタスクはクロスモーダルアプリケーションの重要な構成要素とみなされ、eコマースプラットフォームやウェブサイトなど、様々な実世界のシナリオで必要とされています。 既存のテキスト画像検索モデルは、そのアーキテクチャに基づいて、クロスエンコーダとデュアルエンコーダの2種類に分類されます。クロスエンコーダは通常、画像とテキストの特徴間の深い相互作用をモデル化するために、追加のTransformerレイヤーを追加します。このアーキテクチャは一般的に検索パフォーマンスを向上させますが、画像データセット全体に適用すると、新しいテキストクエリが与えられるたびに各画像サンプルにクロスモーダル計算コストがかかるため、検索が非常に遅くなるという欠点があります。対照的に、デュアルエンコーダは、画像入力とテキスト入力を完全に分離してエンコードします。このアーキテクチャにより、画像表現を事前に計算し、テキストクエリとは独立して再利用できます。デュアルエンコーダは、実行時に高速な近似最近傍検索と組み合わせることもできます。 2ストリームエンコーダーは実世界のアプリケーションではしばしば好まれる選択肢ですが、CLIPのような既存モデルは、計算能力が制限されたエッジデバイスや、プライベートな写真/メッセージコレクションのような動的インデックス化のシナリオには依然として実用的ではありません。この問題に対処するため、私たちの目標は、大規模な事前学習済み2ストリームエンコーダーモデルから始め、小規模モデルの事前学習段階における蒸留プロセスに焦点を当て、より小型で高速かつ効率的な軽量モデル群を獲得することです。知識蒸留は、ソフトターゲットを用いて教師から生徒へ知識を伝達するために最初に提案されました。MoTIS法は、テキスト領域と画像領域でイントラモーダル蒸留プロセスを個別に繰り返すだけです。しかし、これらの手法は、イントラモーダルな教師-生徒間の知識相互作用学習のみを対象としています。 アルゴリズムの概要既存の研究とは異なり、本手法では、事前学習段階での知識抽出のために、完全に接続された知識相互作用グラフを導入します。下図に示すように、本手法は、教師-生徒間のインタラクション学習(モーダル内)に加え、生徒-生徒間のインタラクション学習(モーダル内)、教師-生徒間のインタラクション学習(モーダル間)、生徒-生徒間のインタラクション学習(モーダル間)も含みます。 学生ネットワーク用に構築された全結合グラフは、マルチビュー学習とマルチタスク学習スキームの統合と見なすことができ、これにより事前学習済みモデルに必要な堅牢性と有効性が向上します。また、学習プロセスの種類ごとに、様々な教師戦略の効果を詳細にテストすることをお勧めします。そこで、次のセクションでは、様々な教師戦略がモデルのパフォーマンスに与える影響を提案し、検証します。 監督戦略計画ここでは、次のような効果的な監督戦略を提案します。 InfoNCE損失は、次の式で示されるように、対照損失関数です。MoTIS法は、これを事前学習蒸留に適用することに成功しています。 特徴量間距離(FD)損失は、特徴ベクトル間の距離を直接最小化することを目的としています。ここでは、L2ノルムの2乗を指標として使用します。 類似性に基づく距離 (SD) 損失は、類似した行列間の距離メトリックを削減することを目的としています。 KL-Div 損失は、 Kullback–Leibler ダイバージェンスを使用して予測確率分布とターゲット確率分布の差を測定し、次の目的関数を最小化することを目指します。 SD損失とKL-Div損失では、通常、2つの教師ネットワークの出力を2つの生徒ネットワークの学習目標として用いることに注意が必要です。ここでは、図1に示すように、同じ色の矢印のペアを相互学習目標として用いる実験も行います。これを対称型(Sym)バージョンと呼びます。例えば、典型的なKL-Div損失によって実装されるインターモーダルな教師-生徒相互作用学習は、次のように表すことができます。 私たちが提案する対応する Sym バージョンは次のように表すことができます。 このアプローチにより、最適化プロセス中の 4 つのエンコーダー間の相互作用が強化されます。 監督戦略の選択私たちの目的は、様々な学習タイプと教師戦略を組み合わせることで、さらなるパフォーマンス向上につながるかどうかを実験的に検証することでした。実験結果は以下の表に示されています。 以下の点が明らかになりました。1) 適切な教師戦略を選択することにより、各学習タイプはベースラインを大幅に上回る改善をもたらす可能性があります。2) 各学習タイプのパフォーマンスは、実装された損失関数に大きく影響されます。これはまた、事前学習蒸留プロセスにおける教師戦略を慎重に検討する必要があることを示唆しています。3) 提案するSymバージョンの損失関数(Sym-SDおよびSym-KL-Div)は、教師-生徒対話型学習において、一般的に標準バージョンよりも優れたパフォーマンスを発揮します。ベースラインを基に、最終的な手法では、すべての効果的な組み合わせをさらに統合します。 アルゴリズムの精度評価ConaCLIP アルゴリズムの精度を評価するために、一般的に使用されているテキスト画像検索データセットで実験を実施しました。結果は次のとおりです。 結果は、ConaCLIPが既存の手法およびベンチマークモデルを全ての評価指標において大幅に改善することを示しています。これは、本手法の有効性を完全に証明しています。さらに、提案手法をAlibabaのeコマースプラットフォームにおけるエンドツーエンドのクロスモーダル検索シナリオに適用しました。本手法によって達成されたパフォーマンス指標、モデルサイズ、および高速化は、以下の表に示されています。 私たちの手法は、基本的なモデル性能を維持しながら、モデルのストレージ容量を大幅に削減し、計算効率を向上させます。オープンソースコミュニティへの貢献を強化するため、ConaCLIP手法は近日中に自然言語処理アルゴリズムフレームワークEasyNLPにコントリビュートされる予定です。NLPの実践者や研究者の皆様にぜひご活用ください。 参考文献
論文情報論文タイトル: ConaCLIP: 軽量テキスト画像検索のための完全連結知識相互作用グラフの蒸留の探究 |