HUOXIU

パラメータ数が85%削減され、ViTを全面的に上回るパフォーマンス:新しい画像分類手法ViR




PanChuang AI シェアリング  

出典 | マシンハート

編集者| 卵ソース

[はじめに] ViTは完璧ではないのでしょうか?華東師範大学などの研究者は、モデルと計算の複雑さの両方においてViTを上回る全く新しい画像分類手法、ViRを提案しました。


過去 1 年間、Visual Transformer (ViT) は画像タスクで目覚ましい成果を上げ、画像分類、インスタンスのセグメンテーション、オブジェクトの検出と分析、追跡などのタスクで優れたパフォーマンスを発揮し、畳み込みニューラル ネットワークに代わる可能性を示しました。

ただし、複数の Transformer レイヤーを使用して大規模なデータセットで ViT を事前トレーニングすると、次の 2 つの問題が発生することが多いという証拠がまだあります。

  • まず、大量の計算と大きなメモリ負荷がかかります。

  • 第二に、小さなデータセットで最初からトレーニングする場合、過剰適合の問題が発生します。


具体的には、大規模データセットを用いた事前学習と下流タスクへのチューニングは仮想情報処理に不可欠ですが、これはしばしば過剰な計算負荷と冗長性をもたらし、余分なパラメータを追加することでメモリ負荷を増加させます。さらに、複数のTransformerコーディング層を持つViTは、特に学習データが限られている場合、過学習に悩まされることがよくあります。

これらの問題に対処するため、華東師範大学などの研究機関の研究者は、 Vision Reservoir(ViR)と呼ばれる新しい画像分類手法を提案しました。ViRは、各画像を固定長のトークンの列に分割することで、ほぼ全結合トポロジを持つ純粋なライブラリを構築し、ViTのTransformerモジュールに代わるものです。また、ネットワーク性能を向上させるために、研究者らは2つの深層ViRモデルも提案しました。


論文リンク: https://arxiv.org/pdf/2112.13545.pdf

研究者らは、複数の画像分類ベンチマークにおいてViRとViTを比較する実験を行いました。事前学習を行わない場合、ViRはモデルと計算複雑度の両方においてViTを上回りました。具体的には、ViRのパラメータサイズはViTの約15%~5%、メモリ使用量はViTの約20%~40%です。ViRの優れた性能は、スモールワールド特性、リアプノフ指数、そしてメモリ容量によって実証されています。

通常、ViR は、下の図 1 に示すように、ViT エンコーダーよりも少ないレイヤーでかなり優れたパフォーマンスを実現できます。


図1:CIFAR100データセットにおけるViRとViTの時間消費量の比較。ViRは、学習前のViTと比較して、初期精度と最終精度が向上しています。Deep ViRは並列アーキテクチャです。同じ深度では、ViRの時間コストはViTよりも大幅に低くなっています。

方法の紹介


ViTは基本的に画像パッチを時系列として扱いますが、その革新性の中核は、カーネル接続演算(ドット積など)を用いて画像パッチ間の固有の相関関係(例えば、画像内の異なる部分間の空間的および時間的(シーケンシャル)な一貫性)を取得する点にあります。このことが、研究者らが脳のようなネットワーク、すなわちReservoir Computing(RC)の構築を検討するきっかけとなりました。RCは、固有の時空間ダイナミクスと、計算量およびメモリ消費量の削減、トレーニングパラメータ数およびトレーニングサンプル数の削減を組み合わせます。

ViRの設計において、研究者らはまずリザーバーに用いられるトポロジーを紹介し、その動作メカニズムを説明するためのいくつかの公式と特性を提示した。次に、提案されたViRネットワークについて説明し、さらに深層ViRの例を示した。最後に、ViRの本質的な特性を様々な側面から分析した。

ViR は ViT と同様の基本的なパイプラインに従っており、全体的なネットワーク アーキテクチャを図 2 に示します。

図2:モデルの概要。まず、入力画像は適切なサイズのパッチに分割されます。次に、各パッチは一連のシーケンスベクトルに圧縮され、ViRへの時間入力として使用されます。ViRのコアには、より優れたパフォーマンスを実現するために、深い構造に積み重ねることができる残差ブロックが含まれています。

図 2 は、提案された画像分類モデルを示しています。このモデルの主要コンポーネントは ViR のコアであり、これは前述の内部トポロジを持つリザーバと残差ブロックで構成されています。

研究者たちはリザーバーをさらに積み重ねることで深いViRを実現し、ネットワーク性能をさらに向上させました。下の図4に示すように、最初のViRはL個のリザーバーからなる一連のリザーバーです。

図4:深層ViRの構造。上部は直列リザーバー、下部は並列リザーバー。

実験


研究者らは、提案されたViRモデルと、一般的に使用されているViTモデルを、3つの古典的なデータセット(MNIST、CIFAR10、CIFAR100)で比較しました。また、モデルパラメータを比較し、収束速度とメモリ使用量を分析しました。さらに、CIFAR10-Cを用いて堅牢性テストを実施しました。実験では、元のViTモデルをViT-baseと改名し、以下の表1に示すようにいくつかの変更を加えました。

表1:ViRとViTのシステムパラメータ。Nはリザーバ内のニューロン数、αはwのスペクトル半径のスケーリングパラメータ、SDは入力行列vのスパース性、ri、rj、rk、ジャンプサイズについては本論文のセクション3.1で詳しく説明されている。ViT行では、パッチサイズはすべてのテストデータセットで同じである。

研究者らは、事前学習を行わずに、MNIST、CIFAR10、CIFAR100を用いて画像分類タスクを実行し、ViR1、ViR-3、ViR-6、ViR-12とViT-1、ViT-3、ViT-6、ViT-12を比較しました。以下の表3は、分類精度とパラメータ数の比較を示しています。

表3: 様々な画像分類データセットにおけるViRモデルとViTモデルの比較。数字の接尾辞は、ViTにおけるViRレイヤーまたはエンコーダーの数を示します。「m」は百万単位の単位記号です。

図 6: 4 × 4、14 × 14、16 × 16 パッチ サイズでの MNIST データセットと CIFAR100 データセットのメモリ使用量の比較。

モデルの堅牢性を評価するために、研究者らは入力画像の損失とシステムハイパーパラメータの乱れという2つの側面から評価した。

表 4: 入力画像が堅牢性に与える影響。

「神威」に匹敵する35歳の喬漢生が清華大学で教鞭をとる!18歳で名声を博し、数学界のハンサムの頂点に君臨|コメントを残すと無料書籍をプレゼント。

2022年1月9日

HOG特徴量は画像再構成のターゲットとしても利用可能!FAIRとJHUは、新しい1段階自己教師型事前学習モデル「MaskFeat」を提案しました!

2022年1月9日

中国国家自然科学基金(NSFC)の新規則:研究成果を記載する際に、責任著者と第一著者の区別が不要になります!これはどれほど重要な意味を持つのでしょうか?

2022年1月9日