HUOXIU

ヤン・ルカン氏の最新作!MAEを大きく凌駕し、画像セマンティック表現の新たな高みを実現。


テキスト:CV Sauce

コンピューター ビジョンでは、画像からの自己教師学習には、不変量ベースの方法と生成的方法という 2 つの一般的な方法があります。

不変条件に基づく事前学習手法は、同一画像の2つ以上のビューに対して類似した埋め込みを生成するようにエンコーダを最適化します。これらの画像ビューは通常、ランダムスケーリング、クロッピング、カラージッターといった一連の手作業によるデータ拡張を用いて構築されます。これらの事前学習手法は、高度なセマンティックレベルの表現を生成できますが、強いバイアスも導入し、特定の下流タスクや、異なるデータ分布を持つ事前学習済みタスクに悪影響を与える可能性があります。

多くの場合、これらのバイアスを異なる抽象化レベルのタスクにどのように一般化するかは明確ではありません。例えば、画像分類とインスタンスセグメンテーションでは、同じ不変量は必要ありません。さらに、これらの画像固有の強化を他のモダリティ(音声など)に直接一般化することは不可能です。

認知学習理論は、生物システムにおける表現学習の駆動メカニズムは、感覚入力への内部モデルの適応であると提唱しています。この考え方は、自己教師あり生成法の核心であり、入力の一部を削除またはシャッフルすることで、破損した内容を予測することを学習します。

特に、よく知られているマスクノイズ除去法は、入力からランダムマスクのパッチを再構成することで表現を学習します。このタスクは、視点不変法よりも事前知識が少なく、画像モダリティを超えて容易に一般化できます。しかし、得られる表現は一般的に意味レベルが低く、現在のベンチマークや教師ありセマンティック分類タスクではパフォーマンスが低下します。したがって、これらの手法を最大限に活用するには、エンドツーエンドのファインチューニングなど、より洗練された適応メカニズムが必要です。

この論文では、画像変換を通じてエンコードされた追加の事前知識を使用せずに、画像からの自己教師学習の意味レベルを向上させる方法を検討します。

論文タイトル

共同埋め込み予測アーキテクチャを用いた画像からの自己教師学習

論文リンク:

https://arxiv.org/pdf/2301.08243.pdf

この目的のために、著者らは画像共同埋め込み予測アーキテクチャ(I-JEPA)[1]を導入している。I-JEPAの考え方は、抽象的な表現空間における欠落情報を予測することである。例えば、単一のコンテキストブロックが与えられた場合、画像内の各ターゲットブロックの表現を予測する。ここで、ターゲット表現は学習済みのターゲットエンコーダネットワークによって計算される。ピクセル/トークン空間を予測する生成方法と比較して、I-JEPAは抽象的な予測ターゲットを使用するため、不要なピクセルレベルの詳細を排除することができ、モデルはより多くの意味的特徴を学習することができる。もう一つの核となる設計上の選択は、提案されたマルチブロックマスキング戦略である。具体的には、著者らは、情報に富んだ(空間的に分散した)コンテキストブロックを使用して、画像内の複数のターゲットブロック(十分に大きなスケールを持つ)を予測することの重要性を示している。

広範な実証的評価を通じて、著者らは次のことを実証しています。

I-JEPAは、手作業によるビュー拡張を必要とせずに、強力で既成のセマンティック表現を学習できます。ImageNet-1K線形プロービング、半教師あり1% ImageNet-1K、およびセマンティック転送タスクにおいて、MAEなどのピクセル再構成手法よりも優れた性能を発揮します。セマンティックタスクにおいては、ビュー不変の事前学習済み手法と競合し、物体カウントや深度予測などの低レベル視覚タスクにおいて優れた性能を発揮します(セクション5および6)。よりシンプルなモデルとより柔軟な帰納的バイアスにより、I-JEPAはより幅広いタスクに適用できます。さらに、I-JEPAはスケーラブルで効率的です。

ViT-H/14モデルをImageNetで学習させるには約2400GPU時間が必要ですが、これはiBOTを用いて学習させたViTB/16よりも50%高速で、MAEを用いて学習させたViT-L/16よりも140%効率的です。表現空間での予測により、自己教師あり事前学習に必要な計算量が大幅に削減されます。

方法

提案された画像ベースの共同埋め込み予測アーキテクチャ (I-JEPA) を図に示します。

I-JEPAは、ターゲットブロックの表現を予測する手法です。I-JEPAでは、ターゲットは画像ブロックの表現に対応します。

まず画像からコンテキストブロックxをランダムにサンプリングし、ターゲットブロックと重なる部分を削除します。次に、xをコンテキストエンコーダfθに通すことで、対応するパッチレベル表現sxを取得します。最後に、sxを入力として、各パッチのマスクトークンを予測器gφに通し、M個のターゲットブロック表現sˆy(1), ..., sˆy(M)を出力します。そして、予測値とターゲット値間のL2距離を損失関数として計算します。最後に、勾配降下法を用いてパラメータφとθを最適化し、指数移動平均を用いてターゲットエンコーダ¯θのパラメータを更新します。

さらに、コンテキスト エンコーダー、ターゲット エンコーダー、および予測器のバックボーンとして ViT アーキテクチャを使用します。

エンコーダ/予測器のアーキテクチャは生成MAE法に似ています。しかし、重要な違いは、I-JEPA法は非生成的であり、予測は表現空間で行われることです。ターゲットブロックは、マスクされたターゲットエンコーダの入力ではなく、出力から取得される点に留意することが重要です。この詳細は非常に重要です。

実験結果

画像分類

I-JEPA は、計算リソースの使用を抑えながら、ImageNet-1K 線形評価ベンチマークにおける線形検出パフォーマンスを大幅に向上させます。

さらに、I-JEPAは低ショットのImageNet-1Kテストでも非常に優れたパフォーマンスを発揮します。ViT-H/14アーキテクチャを用いた場合、I-JEPAのパフォーマンスはViT-L/16で事前学習したdata2vecと同等ですが、計算リソースは少なくなっています。画像入力解像度が高くなるにつれて、I-JEPAのパフォーマンスは、事前学習時に追加の手作業によるデータ拡張を活用する結合埋め込み手法(MSN、DINO、iBOTなど)を含む従来の手法を上回ります。

転移学習の実験では、I-JEPA は機能強化のない以前の方法 (MAE および data2vec) を大幅に上回り、最良のビュー不変ベースの方法との差を縮め、CIFAR100 および Place205 で人気の DINO 線形プローブさえも上回りました。

ローカル予測タスク

I-JEPA によって学習されたセマンティック画像表現は、従来の方法 (MAE や data2vec など) の下流の画像分類パフォーマンスを大幅に向上させ、追加の手動データ拡張を利用するビュー不変方法に匹敵するか、さらにはそれを上回ることさえあります。

さらに、I-JEPAは局所的な画像特徴を学習し、物体数えや深度予測といった低レベルかつ高密度な予測タスクにおいて、ビュー不変法よりも優れた性能を発揮します。表4は、線形検出器を用いた様々な低レベルタスクにおける性能を示しています。特に、事前学習後、モデルの重みは固定され、Clevrデータセットを用いて線形モデルを学習し、物体数えと深度予測を実行しています。DINOやiBOTといったビュー不変法と比較して、I-JEPA法は事前学習中に低レベルの画像特徴を効果的に捉え、物体数え(Clevr/Count)と深度予測(Clevr/Dist)において優れた性能を発揮します。

スケーラビリティ

I-JEPA は、従来の方法よりも優れたスケーラビリティも提供します。

図 5 からわかるように、I-JEPA は、ImageNet-1K の 1% に対する半教師あり評価に必要な GPU 時間が従来の方法よりも少なく、手動によるデータ拡張に依存せずに優れたパフォーマンスを実現します。

MAEなどのピクセルを直接ターゲットとする再構成手法と比較すると、I-JEPAは表現空間におけるターゲットの計算時に追加のオーバーヘッドが発生します(反復ごとに約7%遅くなります)。しかし、I-JEPAは収束に必要な反復回数が約5倍であるため、実際には計算量を大幅に削減できます。

I-JEPAは、各画像の複数のビューを作成・処理するために手動データ拡張を必要とするiBOTなどのビュー不変手法よりも大幅に高速です。特に、最大のI-JEPAモデル(ViT-H/14)は、最小のiBOTモデル(ViT-S/16)よりも計算量が少なくなっています。

さらに、結果は、I-JEPAが事前学習に大規模なデータセットを使用することでメリットが得られることを示しています。事前学習データセット(IN1KおよびIN22K)のサイズが大きくなると、セマンティックタスクおよび低レベルタスクにおける転移学習のパフォーマンスが向上します。表5は、IN22Kで事前学習する場合、I-JEPAがより大きなモデルサイズからメリットを得られることも示しています。ViT-H/14モデルと比較して、事前学習済みのViT-G/16モデルは、Place205やINat18などの画像分類タスクにおける下流パフォーマンスを大幅に向上させます。しかし、ViT-G/16モデルは低レベルの下流タスクを改善しません。ViT-G/16はより大きな入力パッチサイズを使用するため、局所予測タスクに悪影響を与える可能性があります。

まとめると、I-JEPAは非常にスケーラブルであり、事前学習に大規模なデータセットを使用したり、モデルサイズを大きくしたりすることでメリットを得ることができます。手作業によるデータ拡張に頼ることなく優れたパフォーマンスを実現し、従来の手法よりも効率的です。

予測子の可視化

上記の視覚化は、I-JEPA予測器が位置の不確実性を正確に捉え、正しいポーズを持つ高レベルの物体部分(例:鳥の背中と車の屋根)を生成していることを示しています。しかし、低レベルの画像詳細や背景情報を精度良く抽出できないという欠点があります。

要約

I-JEPAは、手作業によるデータ拡張に依存せずに、セマンティックな画像表現を学習するためのシンプルかつ効果的な手法です。表現空間内で予測を行うことで、I-JEPAはピクセル再構成法よりも高速に収束し、高レベルのセマンティック表現を学習します。ビュー不変法と比較して、I-JEPAは、手作業によるビュー拡張に依存せずに一般的な表現を学習するための結合埋め込みアーキテクチャを提案します。


参考文献:

[1]https://arxiv.org/pdf/2301.08243.pdf