HUOXIU

Meta AI は、画像、ビデオ、3D データを含む 3 つの主要な分類タスクを処理する単一のモデルであり、スタンドアロン モデルに匹敵するパフォーマンスを備えた「Omnivore」を導入しています。

鳳凰(Aofei Templeより提供)、QbitAI | WeChat公式アカウント QbitAI

最近、Meta AI は、画像、ビデオ、3D データなどさまざまな視覚様式からのデータを分類できる「雑食」モデルをリリースしました。

たとえば、左端の画像に直面すると、深度マップ、単一ビューの 3D マップ、およびビデオ データセットから最適な一致する結果を収集できます。

以前は、これを実現するには異なるモデルが必要でしたが、今では1 つのモデルですべてを処理できます

さらに、Omnivore はトレーニングが容易で、すぐに利用できる標準データセットを使用することで、そのパフォーマンスは対応する単一モデルと同等かそれ以上のレベルに達することができます。

実験結果によると、Omnivore は、 ImageNet画像分類データセットで86.0% 、アクション認識のKineticsデータセットで84.1% 、シングルビュー 3D シーン分類のSUN RGB-Dデータセットで67.1%の精度を達成しました。

さらに、Omnivore は、すべてのクロスモーダル認識を実装する際に、モーダリティ間の対応にアクセスする必要はありません。

さまざまな視覚様式で動作できる「雑食動物」。

Omnivore は Transformer アーキテクチャに基づいており、このアーキテクチャが提供する柔軟性を提供し、異なるモダリティの分類タスク向けに共同でトレーニングできます。

モデルのアーキテクチャは次のとおりです。

Omnivore は、入力画像、ビデオ、および単一ビューの 3D 画像を埋め込みに変換し、Transformer に送ります。

パッチ埋め込みを処理するために任意のビジョン トランスフォーマー アーキテクチャを使用できますが、画像およびビデオ タスクにおけるSwin トランスフォーマーの強力なパフォーマンスを考慮して、このアーキテクチャがここでは基本モデルとして使用されます。

具体的には、Omnivore は画像をパッチに、ビデオを時空間チューブに、シングルビューの 3D 画像を RGB パッチと深度パッチに変換します。

次に、線形レイヤーを使用してパッチを埋め込みにマッピングします。RGBパッチにも同じ線形レイヤーが使用され、深度パッチには別の線形レイヤーが使用されます。

要約すると、このプロセスでは、埋め込みを通じてすべての視覚パターンを汎用形式に変換し、一連の時空間注意操作を使用してさまざまな視覚パターンの統一された表現を構築します。

研究者らは、ImageNet-1K データセット、Kinetics-400 データセット、SUN RGB-D データセットでさまざまな Omnivore モデルを共同でトレーニングしました。

このアプローチは、マルチタスク学習やクロスモーダルアライメントに似ていますが、2 つの重要な違いがあります。

1. 入力観測値の配置に関して何の仮定も行われない(つまり、画像、ビデオ、および 3D データ間の対応に関して何の仮定も行われない)

2. また、これらのデータセットが同じラベル空間を共有することも想定していません。

SOTAを上回るパフォーマンス

実験では、まずOmnivoreを各視覚モダリティに対応する特定のモデル(以下、Specificと呼ぶ)と比較しました。

モデルサイズにはT、S、Bの3種類があります。

事前トレーニング済みのモデルは、7 つのダウンストリーム タスクで微調整されました。

画像特化型モデルはIN1Kで事前学習済みです。動画特化型モデルとシングルビュー3D特化型モデルは、事前学習済みの画像特化型モデルのインフレーションを用いて初期化され、それぞれK400とSUN RGB-Dで微調整されました。

結果は、Omnivore がほぼすべての下流タスクで特定のモデルを上回るか同等の性能を示したことを示しました。

これらのうち最大のものであるSwin-B は、すべてのタスクにわたって最先端のパフォーマンスを実現します。

Omnivore を、同じモデル アーキテクチャとパラメータ数を持つ特定のモデルと比較すると、同じ結果が得られます。

Omnivore は IN1K、K400、SUN データセットで最初から共同でトレーニングされ、モダリティ固有のモデルは各データセットごとに特別にトレーニングされました。

ImageSwin モデルは最初からトレーニングされますが、VideoSwin モデルと DepthSwin モデルは ImageSwin モデルから微調整されます。

次に、Omnivore を画像、ビデオ、3D データ分類タスクにおける最先端 (SOTA) モデルと比較します。

結果は依然として良好で、Omnivore はすべての事前トレーニング済みタスクにおいて最先端 (SOTA) モデルよりも優れたパフォーマンスを示しました(以下の図は、上から下に、画像、ビデオ、3D データを表しています)

さらに、ImageNet-1K データセット上の特定の RGB 画像の深度マップを取得したところ、1K 深度マップでトレーニングされていないにもかかわらず、Omnivore は意味的に類似した正しい回答を提供できることも明らかになりました。

最後に、著者らは、この「雑食動物」は従来のパターン固有のモデルに比べて大幅に改善されているが、いくつかの制限もあると述べています。

たとえば、これは現時点では単一ビューの 3D 画像にのみ適用可能であり、ボクセル、ポイント クラウドなどの他の 3D 表現には適用できません。

論文の宛先:
https://arxiv.org/abs/2201.08377

コードはオープンソースです:

https://github.com/facebookresearch/omnivore