|
2020-04-13 15:40:41 Google AIブログより抜粋 マシンハートコンピレーション 参加者: パンダ 無限に広いニューラルネットワークをトレーニングすることは可能でしょうか?ニューラル接線カーネルは確かに機能します。 最近、Googleの研究成果がコミュニティで注目を集めています。それは、ベイズ推論または勾配降下法とNeural Tangent Kernelを用いて、無限に広いニューラルネットワークを解析的に学習できるというものです。GoogleのオープンソースライブラリであるNeural Tangentsを用いることで、このプロセスはシンプルかつ高速であるだけでなく、非常に効果的です。わずか5行のコードで、このような無限に広いネットワークのアンサンブルモデルをワンステップで構築し、学習させることが可能です。この論文はICLR 2020のスポットライト論文として採択されており、関連リンクはこの記事の最後にあります。 ディープラーニングは、自然言語処理、会話エージェント、コネクショノミクスなど、多くの分野で広範な成功を収め、機械学習の研究環境を一変させました。しかしながら、次のような興味深く重要な疑問が未だに解明されていません。なぜディープニューラルネットワーク(DNN)は、過剰パラメータ化を行っても優れた汎化性能を達成できるのでしょうか?ディープネットワークのアーキテクチャ、学習、そしてパフォーマンスの間にはどのような関係があるのでしょうか?ディープラーニングモデルから重要な特徴をどのように抽出できるのでしょうか? 近年、私たちはどのようにしてこのような進歩を遂げてきたのでしょうか?重要な理論的知見の一つは、ディープニューラルネットワーク(DNN)の幅を広げることで、その動作がより予測可能になり、人間にとって理解しやすくなるというものです。近年の多くの研究では、無限に広いDNNはガウス過程と呼ばれるより単純なモデルに収束することが示されています。したがって、ベイズ推論や畳み込みニューラルネットワークにおける勾配降下法といった複雑な現象は、単純な線形代数方程式に還元できます。こうした無限に広いネットワークから得られる知見は、多くの場合、有限のネットワークにも当てはまります。つまり、無限に広いネットワークはディープラーニングを研究するためのレンズとして機能し、それ自体も有用なモデルとして活用することができます。 左図:ディープニューラルネットワークが無限に広がった場合の入出力マッピング関係を示す模式図。右図:ニューラルネットワークの幅が広がるにつれて、ネットワークの異なるランダム初期化によって得られる出力分布は徐々にガウス分布に近づいていきます。 残念ながら、有限ネットワークの無限幅限界を導出するには、広範な数学的専門知識が必要であり、それぞれの異なるアーキテクチャごとに個別に行う必要があります。無限幅モデルを導出した後、効率的でスケーラブルな実装を実現するには、さらに高度なエンジニアリング開発スキルが必要です。一般的に、有限幅モデルを対応する無限幅ネットワークに拡張するプロセスには数か月かかることもあり、その研究自体が研究論文を執筆するのに十分な規模です。 この問題を解決するため、GoogleはJaxで記述されたソフトウェアライブラリ「Neural Tangents」をオープンソース化しました。Googleは、このライブラリにより、無限幅のニューラルネットワークの構築とトレーニングが有限幅のニューラルネットワークの構築と同じくらい簡単になると主張しています。Neural Tangentsの中核となるのは、有限幅と無限幅の両方のニューラルネットワークを構築できる、使いやすいニューラルネットワークライブラリです。 Neural Tangents の実際の使用例を以下に示します。あるデータで完全に接続されたニューラル ネットワークをトレーニングするとします。一般的な方法は、ニューラル ネットワークをランダムに初期化し、勾配降下法を使用してトレーニングすることです。このようなニューラル ネットワークを多数初期化してトレーニングすると、アンサンブル モデルが生成されます。このアンサンブル モデルの各モデル メンバーは予測を提供し、最終結果を得るために、研究者や実践者は通常、これらの結果を平均します。このアプローチにより、通常はパフォーマンスが向上します。さらに、アンサンブル モデルの各モデル メンバーの予測を使用して、不確実性を推定できます。ただし、アンサンブル モデルのトレーニングには、計算コストが高いという欠点もあるため、通常は避けられます。ただし、ニューラル ネットワークの幅が無限に大きくなると、アンサンブル モデルをガウス過程で記述でき、このガウス過程の平均と分散をトレーニング中に計算できます。 Googleによると、Neural Tangentsを使えば、この無限に広がるネットワークのアンサンブルモデルを、わずか5行のコードでワンステップで構築・トレーニングできるそうです!トレーニングプロセスは以下に示す通りです。また、Googleはこの実験を試すためのインタラクティブなColabノートも公開しています。 https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb この無限幅アンサンブルモデルは単純な閉形式表現で記述されているものの、有限幅アンサンブルモデルとの整合性を示しています。さらに、この無限幅アンサンブルモデルはガウス過程であるため、自然に閉形式の不確実性推定値(上図の色付き領域)が得られます。これらの不確実性推定値は、有限ネットワークの多数の異なるコピーを学習させた際に観測される予測変動の範囲(破線)とほぼ一致しています。 上記の例は、無限幅ニューラルネットワークが学習し、トレーニングダイナミクスを獲得する能力を持っていることを示しています。さらに、Neural Tangentsを使用して構築されたネットワークは、通常のニューラルネットワークで解決できるあらゆる問題に適用できます。Googleは別の例を提供しています。以下は、CIFAR-10データセットでトレーニングされた3つの異なる無限幅ニューラルネットワークアーキテクチャの比較です。Neural Tangentsは非常に優れたパフォーマンスを発揮します。勾配降下法や完全なベイズ推論のいずれを使用していても、無限幅残差ネットワークなどの非常に複雑なモデルで構成されたアンサンブルモデルを閉形式で評価できます。このタスクは有限幅モデルでは単純に解決できません。 ご覧のとおり、無限幅ネットワークは有限幅ネットワークと類似しており、同様の階層構造を辿ります。全結合ネットワークは畳み込みネットワークよりもパフォーマンスが劣り、畳み込みネットワークは広い残差ネットワークに対応できません。しかしながら、従来の学習手法とは異なり、これらのモデルの学習ダイナミクスは閉形式手法を用いて完全に解くことができます。これにより、これらのダイナミクスをこれまでにない方法で理解できるようになり、機械学習の背後にある謎を解き明かし、AI分野を長らく悩ませてきたディープラーニングのブラックボックスを解き明かすのに役立ちます。 おそらく、自分で探索してみたいと思われるでしょう。次のリンクには、あなたにとって最も興味深い探索形式がきっと記載されています。 論文: https://arxiv.org/abs/1912.02803 Colab Notes チュートリアル: https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb GitHubリポジトリ: https://github.com/google/neural-tangents 参考リンク: http://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html https://www.toutiao.com/i6815097944673354243/ |