AI分野におけるマルチタスク学習というと、多くの人がすぐに汎用人工知能(AAI)を思い浮かべるかもしれません。わかりやすく言えば、『ベイマックス』のベイマックスのように、医療診断を行い、人間の感情を理解し、コンパニオンロボットのように様々な複雑なタスクをこなせる介護ロボットです。 しかし、ベイマックスはSF映画の産物に過ぎません。既存のAI技術のほとんどは、まだ単一知能システムの段階にあり、つまり1台のマシンでは単純なタスクを1つしか実行できないのです。 塗装用の産業用ロボットは塗装にしか使えず、資材搬送用のロボットは資材搬送にしか使えず、顔認識機能を持つスマートカメラは顔認識しかできません。人間がマスクを着用するようになれば、アルゴリズムの再調整が必要になるでしょう。 もちろん、単一のインテリジェントエージェントが複数のタスクを実行できるようにすることも、AI 分野における現在の研究のホットスポットです。 最近、強化学習とマルチタスク学習において最も優れたパフォーマンスを示したアルゴリズムは、DeepMindのAgent57です。このアルゴリズムは、Arcade Learning Environment(ALE)データセットに含まれる57種類のAtariゲームすべてにおいて人間レベルのパフォーマンスを達成しました。もちろん、マルチタスク学習はゲーム戦略に限りません。 現在のAIと比較すると、私たち人間はマルチタスク学習の真の達人です。特定の種類のものを認識するために何千ものデータサンプルから学習する必要はなく、また、それぞれの種類のものを一から学ぶ必要もありません。むしろ、類推によって似たようなものを理解できるのです。 AI は、数千の顔を認識するなど、個々の知能においては確かに人間を簡単に上回ることができます。しかし、AI はマルチタスク学習においてこの人間の一般的な能力を模倣する必要があります。 I. マルチタスク学習とは何ですか?マルチタスク学習 (MTL) とは、簡単に言えば、機械が人間の学習行動を模倣できるようにする方法です。 人間の学習は本質的に一般化されており、1 つのタスクから学習した知識を他の関連するタスクに転用することができ、異なるタスクからの知識とスキルは互いの向上に役立ちます。 マルチタスク学習では、複数の関連タスクを並行して学習し、勾配を同時にバックプロパゲーションし、関連タスクのトレーニング信号に含まれるドメイン固有の情報を使用して一般化能力を向上させます。 (シングルタスク学習とマルチタスク学習モデルの比較) 分かりやすい例えで言えば、人間はトラやヒョウほど走るのが得意ではなく、類人猿ほど木登りが得意ではなく、クジラやイルカほど泳ぐのが得意ではないことは周知の事実です。しかし、人間は走る、木登りが得意で、泳ぐという3つの能力を同時に発揮できるという点で他に類を見ません。これを人工知能と人間の知能に当てはめると、AIは単一のタスクにおいて並外れたパフォーマンスを発揮し、AlphaGoのような人間のエキスパートを凌駕する一方で、人間は幅広いタスクにおいて有能である可能性が高いと一般的に考えられています。 MTL は、人工知能がこの人間の能力を実現できるようにすることを目指しています。つまり、複数のタスク間で有用な情報を共有することで、各タスクの学習を改善するのに役立つ、より正確な学習モデルです。 マルチタスク学習と転移学習の違いに注意することが重要です。転移学習の目的は、1 つ以上のタスクを使用して別のターゲット タスクを改善することを目的として、1 つのタスクから別のタスクに知識を転移することです。一方、MTL は、複数のタスクが互いに改善できるようにすることを目指します。 II. MTLを理解する1. MTLの2つの特徴1) タスクは関連性があります。 タスク関連性とは、複数のタスクにおける完了モード間の相関関係を指します。例えば、顔認識では、顔の特徴を認識するだけでなく、性別や年齢も推定・認識できます。また、異なる種類のゲームに共通するルールを特定することも可能です。こうした関連性は、MTLモデルの設計に組み込まれます。 2) タスクはさまざまな方法で分類されます。 MTLタスクは、主に教師あり学習タスク、教師なし学習タスク、半教師あり学習タスク、能動学習タスク、強化学習タスク、オンライン学習タスク、多視点学習タスクに分類されます。したがって、学習タスクによってMTL設定は異なります。 2. MTLの利点を理解するための2つの重要なポイント1) 単一のニューラル ネットワークで複数のタスクを同時にトレーニングすると、より良い学習結果が得られるのはなぜでしょうか? ディープラーニング ネットワークは複数の隠し層を持つニューラル ネットワークであり、入力データを層ごとに非線形でより抽象的な特徴表現に変換することが知られています。 各層のモデルパラメータは手動で設定するのではなく、学習器のパラメータを与えてトレーニング中に学習します。これにより、マルチタスク学習に余裕が生まれ、トレーニング中に複数のタスクの共通機能を学習する能力が十分に備わります。 例えば、上記のMTLネットワークでは、4つの出力に対してバックプロパゲーションが並列に実行されます。4つの出力は最下部の隠れ層を共有しているため、あるタスクで使用されたこれらの隠れ層の特徴表現を他のタスクでも使用できるため、複数のタスクが同時に学習することが可能になります。複数のタスクは並列に学習され、異なるタスクで学習された特徴表現を共有します。このマルチタスク情報は、共有された隠れ層がより優れた内部表現を学習するのに役立ちます。これはマルチタスク学習の鍵となります。 2) では、MTL はどのようにしてその効果を生み出すのでしょうか? MTL メソッドは誘導バイアスを導入します。 帰納的バイアスには 2 つの効果があります。1 つは相互促進であり、これはマルチタスク モデル間の相互の事前知識として考えることができ、帰納的転移としても知られています。 モデルについて事前に仮定を置くことで、モデルのパフォーマンスを向上させることができます。もう 1 つの効果は制約効果であり、複数のタスク間でのノイズ バランスと表現バイアスを使用することで、より優れた一般化パフォーマンスを実現できます。 まず、 MTLの導入により、ディープラーニングの大量データへの依存度を低減できます。サンプル数が少ないタスクでも、サンプル数が多いタスクから共通表現を学習できるため、タスクデータのスパース性の問題が軽減されます。 第二に、複数のタスク間の相互促進は次のように反映されます。
さらに、複数のタスクの相互制約により、モデルの一般化能力が向上します。 一つは、マルチタスクモデルにおけるノイズバランスです。マルチタスクモデルにおける異なるノイズパターンにより、複数のタスクモデルは一般化された表現を学習し、個々のタスクの過学習を回避できます。共同学習では、ノイズパターンを平均化することで、より優れた表現を得ることができます。 一方、表現バイアスがあります。MTLの表現バイアスはモデルバイアスを引き起こす可能性がありますが、これはモデルが将来的に新しいタスクに一般化する際に役立ちます。タスクが類似した起源を持つことを考えると、十分に大きな仮説空間を学習することで、将来的にいくつかの新しいタスクにおいてより優れた一般化性能を達成できる可能性があります。 3. 業界応用シナリオ: MTL は現実の問題をどのように解決しますか?MTL は、大規模なデータセットへの依存を減らし、モデルの一般化パフォーマンスを向上させるという利点があるため、さまざまな畳み込みニューラル ネットワーク モデルのトレーニングで広く使用されています。 まず、マルチタスク学習は複数のタスクの共通表現を学習できます。これらの共通表現は強力な抽象化能力を備えており、複数の異なるが関連する目標に適応できるため、通常、メインタスクの汎化能力を向上させることができます。 次に、共有表現を使用すると、複数のタスクが同時に予測を行うときにデータ ソースの数と全体的なモデル パラメーターのサイズが削減され、予測がより効率的になります。 1) コンピュータビジョンにおける MTL の応用(主に物体認識、検出、セグメンテーションなどのシナリオ) 顔のランドマーク検出:顔の特徴は遮蔽やポーズの変化の影響を受ける可能性があるため、MTL は検出タスクを単一の独立した問題として扱うのではなく、検出の堅牢性を向上させることができます。 マルチタスク学習は、最適化された顔のランドマーク検出と、頭部姿勢の推定や顔の属性の推論など、いくつかの異なるが微妙に関連するタスクを組み合わせることを目的としています。 顔のランドマーク検出は単独の問題ではなく、その予測は複数の異なるが微妙に関連する要因の影響を受けます。例えば、笑っている子供は口を開けますが、この関連する顔の特徴を効果的に識別して活用することで、口角をより正確に検出できるようになります。 上図に示すように、顔特徴点検出(TCDCN)モデルは、特徴点検出タスクに加えて、眼鏡、笑顔、性別、ポーズの識別という4つの補助タスクも実行します。他のネットワークと比較すると、補助タスクによって主タスクの精度が向上していることがわかります。 MTLは分野によって応用範囲が異なり、モデルも異なります。また、解決する応用問題も異なりますが、それぞれの分野においてそれぞれに特徴があります。 前述のコンピューター ビジョン分野以外にも、バイオインフォマティクス、健康情報科学、音声、自然言語処理、スパム フィルタリング、Web 検索、ユビキタス コンピューティングなど、多くの分野で MTL を使用して、それぞれのアプリケーションの有効性とパフォーマンスを向上させることができます。 たとえば、バイオインフォマティクスや健康情報科学では、MTL は治療標的の作用の特徴的なメカニズムを特定したり、複数の集団の関連分析を通じて原因となる遺伝子マーカーを検出したり、スパース ベイジアン モデルの自己相関機能を通じてアルツハイマー病の神経画像測定の認知結果を予測したりするために使用されます。 2) 音声処理への応用 2015年、研究者らは国際音響・音声・信号処理会議(ICASSP)で「マルチタスク学習に基づくディープニューラルネットワーク音声合成」と題する論文を発表し、マルチタスクを積み重ねたディープニューラルネットワークを提案しました。 複数のニューラルネットワークで構成され、前のニューラルネットワークの出力が次のニューラルネットワークの入力として音声合成に使用されます。各ニューラルネットワークは2つの出力ユニットを持ち、2つのタスク(1つは主タスク、もう1つは補助タスク)間で隠れ層を共有することで、音声合成の精度を向上させます。 3) ウェブアプリケーションの場合 MTLは、単一の特徴表現を複数のタスク間で共有し、Web検索におけるランキング向上の方法を学習するために使用できます。また、広告におけるコンバージョンを最大化する階層構造を発見したり、スケーラブルな階層型マルチタスク学習アルゴリズムを通じて構造的スパース性などの問題に対処したりするためにも使用できます。 全体として、特徴選択と深層特徴変換の手法は、MTL のこれらの応用分野の研究者によって広く使用されています。 前者はデータの次元を削減し、より優れた解釈可能性を提供でき、後者は強力な特徴表現を学習することで優れたパフォーマンスを実現できます。 MTL は、ニューラル ネットワークの学習能力を向上させる手段として、ますます多くの分野で広く使用されています。これは、実際に多くの業界での AI の実際の応用における一般的なシナリオです。 結局のところ、人間がマルチタスク学習を柔軟に適用できる能力を持つのは、まさに私たちが暮らす環境が多様な特徴とノイズに特徴づけられているからこそである、と私たちは考えることができます。これは必然的に、過去の学習能力を包括的かつ類推的に転移させる能力を必要とします。 しかし、人工知能が個々の知能だけに焦点を当て、知識やタスクの種類ごとに別々のモデルを構築すると、それは「人工的な愚かさ」を備えた単なる機械システムになり、「白い馬は馬ではない」などのジョークにつながる可能性があります。 AIが総合的な理解という点で人間と同等の能力を真に備えることができ、さらに人間の認知能力の限界や認知バイアスを克服できれば、AGIへの道にようやく希望の光が見えてくるかもしれない。 もちろん、この道のりはまだかなり長いです。 http://www.woshipm.com/ai/3812558.html |