HUOXIU

グラフ畳み込みネットワークを深くするにはどうすればいいでしょうか?Tencent AI Labは清華大学と共同でDropEdgeを提案しました。

2020-04-07 14:17:08

マシンハートリリース

マシンハート編集部

近年、グラフニューラルネットワークの研究は非常に盛んに行われ、トップカンファレンスに採択される論文数が爆発的に増加しています。しかし、現在のグラフ畳み込みネットワーク、特にノード分類用のものは、ほとんどが浅い層構造です。これらのモデルの分類性能は、深度が増すにつれて(残余結合があっても)低下することが多く、これは画像分類に用いられる畳み込みネットワークが数十層にも及ぶことが多いという現象とは矛盾しています。深層グラフ畳み込みネットワークの学習の難しさは、その表現力を著しく制限します。そのため、超深層グラフ畳み込みネットワークを効果的に学習する方法は、グラフ学習研究における大きな課題となっています。この研究は、テンセントAIラボと清華大学の共同研究によって完了しました。



テンセントAIラボと清華大学によるこの研究は、グラフニューラルネットワークが深い階層に到達できない原因として、主に過学習と過平滑化という2つの原因が考えられます。これらの問題に対処するため、論文ではシンプルながらも非常に効果的な手法であるDropEdgeを提案しています。これは、超深層グラフ畳み込みネットワークの学習効率とノード分類性能を大幅に向上させる技術です。特に、この論文はOpenReviewに投稿された際に、他の研究者から大きな注目を集めました。正式に受理された後、チューリング賞受賞者のヨシュア・ベンジオ氏のチームメンバーであるペタル・ヴェリチコビッチ氏(アテンショングラフネットワークGATの発明者)も、OpenReviewプラットフォームでこの論文を称賛し、高く評価しました。

  • 論文リンク: https://openreview.net/forum?id=Hkx1qkrKPr
  • コードアドレス: https://github.com/DropEdge/DropEdge


はじめに<br/>グラフニューラルネットワーク(GNN)は近年大きな進歩を遂げています。グラフ畳み込みニューラルネットワーク(GCN)やグラフアテンションネットワーク(GAT)など、多くのGNNモデルは、さまざまなグラフ学習アプリケーションで優れた結果を達成しています。しかし、現在のGNN構造のほとんどは実際には浅い(2層)です。この浅さは、GNNの表現力を大きく制限しています。最近、畳み込みニューラルネットワークの経験に基づいて、GNNモデルを修正してより深くする試みがいくつか行われました。しかし、これらの研究では、GNNを深くすることが難しい理由や、GNN内でモデル修正が効果的である理由が真に分析されていません。
本論文は、深層グラフ畳み込みネットワーク(GCNN)の限界に関する包括的な理論的分析を提供することを目的としています。理論的結果に基づき、深層GCNNの学習問題である過学習と過平滑化の解決策を探ります。過学習とは、少量のデータに複雑なモデルを適用することで生じる汎化能力の低下を指します。過学習は、深層学習モデルにおいて広く見られる現象です。
過平滑化とは、グラフニューラルネットワークにおけるメッセージパッシングにおいて、全てのノードの入力特徴量が入力とは独立した部分空間に収束するプロセスを指します。このプロセスにより、グラフニューラルネットワークに入力される特徴量は無効となり、勾配消失を引き起こします。過平滑化はグラフニューラルネットワークモデル特有の問題であり、深層グラフニューラルネットワークの学習を困難にしています。
下の図の破線は、Coraデータセットにおけるオリジナルの4層および8層GCNのトレーニング曲線を表しています(過学習と過平滑化をわかりやすく示すため、GCN層のバイアスは除去されています)。ご覧のとおり、GCN-4では、検証セットの損失関数は一定数のトレーニングエポック以降、反比例して増加しています。この増加は過学習よりも優れています。一方、GCN-8では、トレーニングセットの損失関数は全く減少していません。これは、過平滑化の存在がGCN-8でのトレーニングの失敗の原因となっているためです。


本稿では、過剰平滑化現象を特徴づけるために、部分空間と-平滑化の概念を定義する。具体的には、


ここで、 はGCN層です。 は正規化された隣接行列であり、現在の層のパラメータを表します。過平滑化収束目的関数を固定点ではなく部分空間として定義することにより、 -平滑化は非線形活性化関数とパラメータ行列を含むGCNを特徴付けることができます。
ドロップエッジ
基本的に、過剰平滑化の影響を軽減するには、平滑化レイヤーの数を増やし、サブスペースへの収束を減らす必要があります。

この情報損失に対処するため、本論文ではDropEdgeと呼ばれる非常にシンプルでありながら効果的な手法を設計します。DropEdgeは各トレーニングラウンドにおいて、入力グラフからランダムにエッジを削除することで、隣接行列における情報損失を効果的に低減します。

真ん中

ゼロ以外の要素を 0 に設定します。

エッジ削除の確率です。…

DropEdge 後の隣接行列は次のようになります。

削除されたエッジの隣接行列です。取得後…

次に、これを正規化して

交換する

計算を実行します。
この論文では、緩和スムージング層の定義に基づいて、DropEdge 後の隣接行列を証明しています。

GCN 計算では、モデルに対する過剰な平滑化の影響を軽減できます。つまり、次のようになります。


このランダムエッジ除去手法は、Dropoutをグラフ構造に一般化したものと考えることができます。Dropoutは特定の特徴量を破棄することでモデル内のアンサンブル処理を実現するのに対し、DropEdgeはエッジを破棄することでGNNのアンサンブル処理を実現します。したがって、DropEdgeは過学習の防止にも役立ちます。興味深いことに、この過学習防止効果はDropoutと組み合わせてモデルの過学習を防ぐのに使用できます。さらに、前処理ステップとして、DropEdgeはあらゆるGNN手法と組み合わせることができ、高い汎用性を発揮します。
図1に示すように、DropEdgeを追加した後、検証セットにおけるGCN-4の損失関数は増加しなくなりましたが、GCN-8は損失関数を減少させた状態でも正常に学習できました。これは、DropEdgeが過学習と過平滑化を防ぐという点で、深層学習GNNの学習効率とモデル性能を向上させることができることを示しています。
このシンプルな手法の有効性をさらに検証するため、本論文では、様々なモデル、層数、データセットを用いて広範な実験を実施しました。その結果、様々なモデルにDropEdgeを追加することで、ノード分類タスクのパフォーマンスが大幅に向上することが示されました。


一方、4つのデータセットすべてにおいて、DropEdgeを追加すると既存のSTOAモデルよりも優れたパフォーマンスを発揮しました。注目すべきは、結果のほとんどが4層以上のグラフニューラルネットワークで得られたことです。


さらに、以下の表は、Dropout と DropEdge が過剰適合を減らす相乗効果も示しています。


要約すると、本論文では、ノード分類タスクにおける深層グラフ畳み込みネットワーク(GCNN)の学習効率と性能を向上させるための、斬新かつ効果的な手法であるDropEdgeを提案する。DropEdgeは非常に汎用性が高く、既存のGCNNアーキテクチャに容易に適用できる。さらに重要な点として、本論文はGCNN学習中に発生する過平滑化現象について詳細かつ厳密な理論的説明を提供しており、深層グラフニューラルネットワークを研究する将来の研究者にとって重要な指針となる。


https://www.toutiao.com/i6812839545877299715/