HUOXIU

Google の Jeff Dean 氏が主導し、5 つの主要な AI トレンドの詳細な概要が紹介されます。

ビッグデータダイジェストはAcademic Headlinesから転載されました。


人工知能技術の進歩に関心のある読者にとって、Google Research チーム全体が執筆した年末のまとめは必読です。

本日、Googleの権威ジェフ・ディーン氏の主導により、この要約が遅ればせながらようやく公開されました。知識の普及を目的として、「Academic Headlines」は読者の皆様に以下の全文を翻訳いたします。

過去数十年にわたり、私は機械学習 (ML) とコンピュータサイエンス (CS) の分野における変化と発展を目の当たりにしてきました。

初期の方法にはしばしば欠陥があり、それが失敗につながりました。しかし、継続的な研究と改良により、現在では大きな成功を収めている一連の現代的な方法が登場しました。この長期的な発展の流れに沿って進めば、今後数年間で、最終的には数十億人の人々に恩恵をもたらし、かつてないほど大きな影響を与えるような、画期的な進歩が見られると確信しています。

この記事では、機械学習において大きな影響を与える可能性のある5つの分野に焦点を当てます。それぞれの分野について、関連する研究(主に2021年以降)と、今後数年間に見られる可能性のある方向性と進歩について考察します。


  • トレンド1: より強力な汎用MLモデル
  • トレンド2:ML効率の継続的な改善
  • トレンド 3: ML は個人と社会の両方にますます有益になっています。
  • トレンド4:科学、健康、持続可能性における機械学習のメリットの拡大
  • トレンド5: MLのより深く広い理解


トレンド1: より強力な汎用MLモデル

研究者たちは、これまで以上に大規模で高性能な ML モデルをトレーニングしています。

たとえば、ここ数年だけでも、言語の分野ではモデルが画期的な進歩を遂げ、数百億のデータトークンで数十億のパラメータをトレーニングするモデル(11パラメータのT5モデルなど)から、数千億または数兆のデータトークンで数千億または数兆のパラメータをトレーニングするモデル(OpenAIの175パラメータのGPT3モデルやDeepMindの280パラメータのGopherモデルなどの密なモデル、Googleの600パラメータのGShardモデルや1.2パラメータのGLaMモデルなどの疎なモデル)へと進化しました。データセットとモデルのサイズが拡大したことで、幅広い言語タスクで精度が大幅に向上しました。これは、言語モデルと機械翻訳モデルのニューラルスケーリング法則に関する研究で予測されているように、標準的な自然言語処理(NLP)ベンチマークタスクが全体的に改善されたことにも表れています。

これらの高度なモデルの多くは、単一ながらも重要な書き言葉のパターンに焦点を当てており、単一ドメイン内の複数のタスクにおいても、言語理解ベンチマークと自由形式の会話能力において最先端の結果を示しています。さらに、比較的少ないトレーニングデータで新しい言語タスクに一般化できるという優れた能力も示しています。新しいタスクでは、トレーニング例が実質的に存在しない場合もあります。単純な例としては、長文質問応答の改善、自然言語処理におけるゼロラベル学習、そして自由形式の会話に対応し、複数の会話ラウンドにわたって重要な文脈を維持する高度な能力を示すLaMDAモデルなどが挙げられます。

LaMDA との会話は、ウェッデル海の事前設定されたプロンプト「こんにちは、ウェッデル海です。何かご質問はありますか?」を模倣しています。モデルは、キャラクター内の会話を主に制御します。

Transformer モデルは、画像、ビデオ、音声モデルにも大きな影響を与えており、これらはすべて、視覚 Transformer モデルを調査するスケーリング ルールの研究で予測されているように、スケーリングの恩恵を受けています。画像認識およびビデオ分類用の Transformer は、数多くのベンチマークで最先端の結果を達成しており、画像とビデオ データで共同でトレーニングされたモデルは、ビデオ データのみを使用するモデルと比較して、ビデオ タスクのパフォーマンスが向上することも実証されています。画像およびビデオ Transformer 用のスパース軸注意メカニズムを開発して計算をより効率的に使用できるようにし、視覚 Transformer モデル用のより優れた画像ラベリング手法を見つけ、畳み込みニューラル ネットワークと比較して動作を調査することで視覚 Transformer アプローチへの理解を深めました。Transformer モデルと畳み込み演算を組み合わせることで、視覚および音声認識タスクで大きな利点が示されています。

生成モデルの出力も劇的に向上しました。ここ数年、特に画像生成モデルにおいて大きな進歩が見られました。例えば、最近のモデルは、単一のカテゴリ(「アイリッシュ・セッター」や「ストリートカー」など)のみを指定してリアルな画像を作成したり、低解像度の画像を「パディング」して驚くほど自然に見える高解像度のマッチング画像を作成したり、さらには任意の長さの自然なシーンを構築したりする能力を実証しています。別の例としては、画像を一連の離散的なトークンに変換し、自己回帰生成モデルを用いて高忠実度で合成する能力があります。

この図は、特定のカテゴリから新しい画像を生成し、これらの画像をシードとして使用して高解像度の例を作成するカスケード拡散モデルの例を示しています。最初のモデルは低解像度の画像を生成し、残りのモデルは最終的な高解像度画像へのアップサンプリングを実行します。

図 3 は、SR3 超解像拡散モデルが低解像度画像を入力として受け取り、純粋なノイズから対応する高解像度画像を構築することを示しています。

これらの強力な機能の背後にある大きな責任を考慮すると、このようなモデルの潜在的な応用が人工知能の原則に違反するかどうかを慎重に検討する必要があります。

高度なシングルモーダルモデルに加え、大規模マルチモーダルモデルもますます注目を集めています。これらのモデルは、多様な入力モダリティ(言語、画像、音声、動画など)を受け入れることができ、場合によっては、説明文や段落から画像を生成したり、画像の視覚的内容を人間の言語で簡潔に説明したりするなど、異なる出力モダリティを生成できるため、現在最も先進的な技術と言えます。これは、現実世界と同様に、マルチモーダルデータでは学習が容易であるため(例えば、デモンストレーション付きの記事を読む方が、単に読むよりもはるかに有益であるなど)、非常に興味深い研究分野です。したがって、画像とテキストを組み合わせることは多言語検索タスクに役立ち、テキストと画像の入力を組み合わせる方法をより深く理解することで、画像キャプション作成タスクの改善につながります。同様に、画像とテキストデータの共同学習は、画像分類タスクの精度と堅牢性を向上させるのに役立ち、画像、動画、音声タスクの共同学習は、すべてのモダリティにわたる汎化性能を向上させることができます。自然言語が画像処理の入力として利用され、ロボットに世界とのインタラクションや他のソフトウェアシステムの制御方法を指示できるという魅力的な兆候も見られ、ユーザーインターフェースの開発方法に変化をもたらす可能性を示唆しています。これらのモデルは、音声、音、画像、動画、言語などのパターンを処理し、さらには構造化データ、ナレッジグラフ、時系列データなどにまで拡張される可能性があります。

図1:新しいタスクに一般化できるビジョンベースのロボットオペレーティングシステムの例。左:ロボットは、モデルへの特別なトレーニングを必要とせずに、「ブドウを陶器のボウルに入れる」という自然言語で記述されたタスクを実行しています。右:左と同じですが、「ボトルをトレイに入れる」という新しいタスク記述が追加されています。

これらのモデルは通常、自己教師学習を用いてトレーニングされます。自己教師学習では、モデルは準備やラベル付けされていない観測された「生の」データから学習します。例としては、GPT-3やGLaMで使用される言語モデル、自己教師学習音声モデルBigSSL、視覚対照学習モデルSimCLR、マルチモーダル対照学習モデルVATTなどが挙げられます。自己教師学習により、大規模な音声認識モデルは、ラベル付きトレーニングデータのわずか3%を使用するだけで、従来の音声検索における自動音声認識技術のベンチマーク精度に匹敵することが可能になります。これらのトレンドは、特定のタスクでMLを有効にするために必要な労力を大幅に削減できるため、非常に魅力的です。さらに、異なるサブポピュレーション、地域、言語、その他の重要な表現次元をより適切に反映する、より代表的なデータでモデルをトレーニングすることが容易になります。

これらすべてのトレンドは、複数のデータパターンを処理し、数千、数百万のタスクを解決できる、非常に高性能な汎用モデルのトレーニングへと向かっています。特定のタスクに対して、そのタスクに最適化された部分のみをアクティブ化するスパースモデルを構築することで、これらのマルチモーダルモデルはより効率的になります。今後数年間、私たちはこのビジョンを「Pathways」と呼ばれる次世代アーキテクチャと統合プロジェクトで追求していきます。これまでに開発した多くのアイデアを組み合わせることで、この分野で大きな進歩が見込まれると期待しています。

画像 | Parthway: 私たちは、何百万ものタスクに一般化できる単一のモデルの開発に取り組んでいます。

トレンド2:ML効率の継続的な改善

コンピュータハードウェア設計、MLアルゴリズム、そしてメタ学習研究の進歩は、MLモデルの効率向上を加速させ、より高度な機能へと導いています。モデルのトレーニングと実行のためのハードウェアからMLアーキテクチャの個々のコンポーネントに至るまで、MLパイプラインの多くの側面は、全体的なパフォーマンスを維持または向上させながら、効率性を高めるために最適化することが可能です。これらの様々なスレッドはそれぞれ、大幅な乗​​数によって効率性を向上させることができ、わずか数年前と比べて計算コストを桁違いに削減できます。この効率性の向上は、MLの効率性を大幅に向上させ続ける多くの重要な進歩を可能にし、よりコスト効率の高いペースでより大規模で高品質なMLモデルを開発し、アクセシビリティをさらに向上させることを可能にします。私はこれらの研究の方向性に非常に興奮しています。

ML アクセラレータのパフォーマンスの継続的な改善:

MLアクセラレータの各世代は前世代から改良を重ね、各チップの高速化に伴い、システム全体のサイズは一般的に拡大します。高速ネットワークで接続された多数のチップを搭載したポッドは、大規模モデルの効率を向上させることができます。

もちろん、モバイルデバイスの機械学習機能も大幅に向上しています。Pixel 6は、強力な機械学習アクセラレータを統合した最新のGoogle Tensorプロセッサを搭載し、デバイス上の重要な機能をより適切にサポートします。

当社では、ML を使用してさまざまなコンピュータ チップの設計を加速しています (詳細は後述)。これにより、特に優れた ML アクセラレータの製造においてメリットがもたらされます。


ML コンパイルと ML ワークロードの最適化の継続的な改善:

ハードウェアに変更を加えなくても、MLアクセラレータのコンパイラとシステムソフトウェアをさらに最適化することで、効率を大幅に向上させることができます。例えば、「マルチチャネル機械学習コンパイラの自動チューニングへの柔軟なアプローチ」では、MLを用いてコンパイラ設定を自動チューニングする方法を示しており、同一の基盤ハードウェア上で単一のMLプログラムを実行する場合、全体的なパフォーマンスを5~15%(場合によっては最大2.4倍)向上させることができます。GSPMDは、XLAコンパイラに基づく自動並列化システムについて説明しています。このシステムは、ほとんどのディープラーニングネットワークアーキテクチャをアクセラレータのメモリ容量を超えて拡張することができ、GShard-M4、LaMDA、BigSSL、ViT、MetNet-2、GLaMといった多くの大規模モデルに適用され、複数の領域にわたって最先端の結果をもたらしています。

この図は、150個のMLモデルに対してMLベースコンパイラを用いた自動チューニングを行うことで、エンドツーエンドのモデリングを高速化できることを示しています。これには、5%以上の改善が達成されたモデルも含まれます。バーの色は、モデルの各コンポーネントにおける相対的な改善度を表しています。


人間の創造性によって駆動されるより効率的なモデルアーキテクチャの発見:

モデルアーキテクチャの継続的な改善により、多くの問題において一定レベルの精度を達成するために必要な計算コストが大幅に削減されました。例えば、2017年に開発したTransformerアーキテクチャは、いくつかのNLPタスクと翻訳ベンチマークにおける技術レベルを向上させました。同時に、これらの結果は、LSTMやその他のリカレントアーキテクチャといった他の一般的な手法と比較して、10~100倍少ない計算量で達成できます。同様に、Visual Transformerは、畳み込みニューラルネットワークと比較して4~10倍少ない計算量で、多くの異なる画像分類タスクにおいて最先端の結果を示しました。

より効率的なモデル アーキテクチャによる機械駆動型の検出:

ニューラルアーキテクチャ探索(NAS)は、特定の問題領域に対して、より効率的で斬新な機械学習アーキテクチャを自動的に発見します。NASの主な利点は、探索空間と問題領域の組み合わせごとに1回の操作のみで済むため、アルゴリズム開発に必要な労力を大幅に削減できることです。さらに、NAS実行の初期作業は計算コストが高くなる場合がありますが、結果として得られるモデルは下流の研究環境や実稼働環境における計算量を大幅に削減し、全体的なリソース要件を大幅に削減できます。例えば、進化型トランスフォーマーを発見するための1回の検索では、CO2e排出量はわずか3.2トンでしたが、標準的なトランスフォーマーモデルよりも15~20%効率の高いモデルが生成され、NLPコミュニティの誰もが利用できます。近年のNASの活用により、さらに効率的なアーキテクチャであるPrimer(オープンソース)が発見され、標準的なトランスフォーマーモデルと比較してトレーニングコストを4分の1に削減できます。このように、NAS検索の発見コストは、たとえ少数の下流タスクにしか適用されなくても、発見されたより効率的なモデルアーキテクチャを使用することで相殺できる場合が多くあります。

図 | NASが発見したPrimerアーキテクチャは、通常のTransformerモデルと比較して4倍の効率性を備えています。この図(赤色部分)は、Primerの2つの主要な改良点を示しています。深さ方向畳み込みによるマルチヘッド投影アテンションと2乗ReLU活性化です(青色部分はオリジナルのTransformerを表しています)。

NASは、ビジョン領域においてより効率的なモデルの発見にも活用されています。EfficientNetV2モデルアーキテクチャは、モデルの精度、モデルサイズ、トレーニング速度を統合的に最適化するニューラルアーキテクチャ探索の成果です。ImageNetベンチマークにおいて、EfficientNetV2は、従来の最先端モデルと比較してサイズを大幅に削減しながら、トレーニング速度を5~11倍向上させることが示されています。CoAtNetモデルアーキテクチャは、ビジュアルトランスフォーマーと畳み込みネットワークのアイデアを取り入れたアーキテクチャ探索によって開発され、ビジュアルトランスフォーマーよりも4倍高速にトレーニングし、ImageNetの新たなパフォーマンスレベルを達成するハイブリッドモデルアーキテクチャを実現しました。

図 | 以前の ImageNet 分類モデルと比較して、EfficientNetV2 は優れたトレーニング効率を実現します。

検索の広範な応用は、強化学習(RL)や進化的手法の活用を含む機械学習モデルのアーキテクチャとアルゴリズムの改善に役立ち、他の研究者がこのアプローチを様々な分野に適用するきっかけとなっています。他の研究者が独自のモデル検索を作成できるよう、私たちはオープンソースのモデル検索プラットフォームを提供しています。このプラットフォームは、関心分野におけるモデル検索の探索と発見を支援します。モデルアーキテクチャ以外にも、自動検索は、教師あり学習アルゴリズムの発見を自動化する手法を実証したAutoML-Zeroの以前の研究を基盤として、より効率的な新しい強化学習アルゴリズムの発見にも使用できます。

スパース性の使用:

スパース性はアルゴリズムにおけるもう一つの重要な進歩であり、効率を劇的に向上させます。スパース性とは非常に大きな容量を持つモデルを指しますが、特定のタスク、例、またはトークンに対して、モデルの特定の部分のみがアクティブ化されます。2017年に、Sparsely-Gated Mixture-of-Experts Layerを導入し、計算上の優位性を維持しながら、さまざまな翻訳ベンチマークで優れたパフォーマンスを実証しました。これにより、以前の最先端の高密度LSTMモデルと比較して10倍の計算量で済みます。さらに最近では、Switch Transformerは、エキスパートスタイルのハイブリッドアーキテクチャとTransformerモデルアーキテクチャを組み合わせ、高密度のT5-Base Transformerモデルと比較して、トレーニング時間と効率が7倍向上しました。GLaMモデルは、Transformerとエキスパートスタイルのハイブリッドレイヤーを組み合わせて新しいモデルを作成できることを実証しています。このモデルは、29のベンチマークで平均してGPT-3モデルを上回り、トレーニングエネルギーは3分の1、推論計算は2分の1で済みます。スパース性の概念は、Transformer のコア アーキテクチャにおけるアテンション メカニズムのコストを削減するためにも使用できます。

BigBirdのスパースアテンションモデルは、グローバルトークン(入力シーケンスの全部分を処理するために使用される)、ローカルトークン(入力シーケンスの全部分を処理するために使用される)、およびランダムトークンの集合で構成されています。理論的には、これはWatts-Strogatzグラフにいくつかのグローバルトークンを追加するものと解釈できます。

計算効率の点では、モデルでスパース性を利用することは明らかに大きな潜在的メリットのある方法であり、この方向に進もうとする研究アイデアに関しては、まだ表面をなぞったに過ぎません。

これらの効率向上手法を組み合わせることで、米国で平均的にP100 GPUを使用してトレーニングされたベースラインTransformerモデルと比較して、エネルギー効率を100倍向上させ、CO2e排出量を650分の1に削減できます。これは、再生可能エネルギーによって100%相殺されているGoogleのカーボンニュートラルを考慮に入れていません。

トレンド 3: 機械学習は個人やコミュニティにとってさらに有益になっています。

機械学習とシリコンハードウェア(Pixel 6に搭載されたGoogle Tensorプロセッサなど)のイノベーションにより、多くの新しい体験が可能になり、モバイルデバイスはより一貫性と効率性をもって状況や環境を認識できるようになりました。これらの進歩は、デバイスのアクセシビリティと使いやすさを向上させると同時に、モバイル写真やリアルタイム翻訳といった人気機能に不可欠なコンピューティング能力も向上させます。特に、近年の技術革新は、プライバシー保護を強化しながら、ユーザーにさらにパーソナライズされた体験を提供することにもつながっています。

人々は、日常生活や創造的なインスピレーションを捉えるために、これまで以上にスマートフォンのカメラに頼っています。コンピューテーション・フォトグラフィーにおける機械学習の巧妙な応用により、スマートフォンのカメラは進化し、使いやすく、より高品質な画像を生み出しています。HDR+の改良、低照度性能の向上、ポートレート処理の改良、そしてよりインクルーシブな表現といった先進技術により、スマートフォンのカメラは被写体をよりリアルに映し出すことができます。Googleフォトの強力な機械学習ツール(マジックイレーサーなど)は、写真をさらに最適化します。


モバイルでの作成以外にも、多くの人が、通話時にライブ翻訳やライブキャプションを使用するなど、リアルタイムの異言語コミュニケーションに携帯電話を利用しています。自己教師学習や雑音下での学習などの技術により、音声認識の精度は向上し続けています。アクセントのある音声、雑音の多い音声、重複した音声に対しては、大幅な改善が見られました。テキスト音声合成の進歩を基に、Google Read Aloud を使用して、ますます多くのプラットフォームでウェブページや記事を聴くことができるようになりました。これにより、情報へのアクセスが安価になり、モーダルおよび言語の障壁が克服されます。Google 翻訳のリアルタイム音声翻訳機能は、一貫して即時に翻訳を生成することで大幅に向上しました。高品質の音声翻訳は、多言語コミュニケーションにおいてより優れたユーザー エクスペリエンスを提供します。Lyra 音声コーデックと Soundstream オーディオ コーデックでは、機械学習と従来のコーデック方式を組み合わせることで、はるかに低いビットレートで音声、音楽、その他のサウンドを忠実に伝送できます

スマートテキスト選択などのツールが改良され、電話番号や住所などの情報を自動的に選択してコピー&ペーストできるようになりました。さらに、スクリーンアテンションは携帯電話の画面が暗くなるのを防ぎ、視線認識技術も向上しました。機械学習も人々の生活の安全に貢献しています。例えば、不審なメッセージアラートはフィッシング攻撃の可能性を警告し、セーフルーティングはより安全な代替ルートを提案します。

これらの機能で使用されるデータの機密性を考慮すると、デフォルトで共有しないように設定することが重要です。上記の機能の多くは、Android の Private Compute Core で実行されます。これは、オペレーティングシステムの他の部分から分離されたオープンソースの安全な環境です。Android は、Private Compute Core 内のデータがユーザーの同意なしにアプリと共有されないよう保護しています。また、Private Compute Core 内の機能がネットワークに直接アクセスすることも防止しています。これらの機能は、少数のオープンソース API を介して Private Compute Services と通信することで、個人情報の機密情報を削除し、フェデレーションラーニング、フェデレーションアナリティクス、プライベート情報取得などの機能を使用してプライバシーを保護することができます。

これらの技術は、次世代のコンピューティングとインタラクションのパラダイム開発に不可欠です。そこでは、個人用デバイスや公共デバイスがプライバシーを侵害することなく、(アルゴリズム)モデルの学習と訓練を支援する必要があります。連合型の教師なし学習手法は、よりインテリジェントなシステムを構築できます。これらのシステムは、より直感的にインタラクションし、機械というよりは社会的な存在に似ています。これらのインテリジェントシステムがニューラルコンピューティングを広く公平にサポートできるようにするには、私たちの技術に根本的な変革を起こす必要があります。

トレンド 4: 機械学習は科学、健康、持続可能な開発にますます大きな影響を与えています。

近年、機械学習は物理学や生物学などの基礎科学にますます大きな影響を与えており、再生可能エネルギーや医療などの分野でも多くの刺激的な応用が見られています。コンピュータービジョンモデルは、個人的な問題だけでなく、地球規模の問題にも効果的です。医師の診療を支援したり、神経生理学への理解を深めたり、より正確な天気予報を提供したり、災害救援活動を迅速化したりすることができます。また、他の種類の機械学習モデルは、気候変動への対応に不可欠な、二酸化炭素排出量の削減や代替エネルギー源の生産増加の方法を発見することができます。さらに、このようなモデルは、アーティストの創作ツールとしても活用できます。機械学習がより堅牢で洗練されるにつれて、その応用可能性は拡大し続け、私たちが直面する最も困難な問題の解決に貢献しています。

コンピューター ビジョンは新たな洞察を提供します。

過去10年間、コンピュータビジョンの進歩により、コンピュータは様々な科学分野において幅広いタスクを実行できるようになりました。神経科学では、自動再構成技術により、薄切片の高解像度電子顕微鏡画像から脳組織の神経接続を再構成することが可能です。Googleはこれまでもショウジョウバエやマウスの脳を研究するためのリソースを作成してきましたが、昨年はハーバード大学のリヒトマン研究室と共同で、人間の皮質シナプス接続に関する初の大規模研究を実施しました。この研究は、皮質の全層にわたる複数の細胞種を対象としました。この研究の目的は、神経科学者が驚異的な人間の脳を研究するのを支援することです。例えば、下の画像は、成人の脳にある約860億個のニューロンのうち6つを示しています。


コンピュータービジョン技術は、地球規模の課題に対処するための強力なツールも提供します。ディープラーニングをベースとした気象予測手法は、衛星画像やレーダー画像を入力として他の気象データと組み合わせることで、従来の物理法則に基づくモデルよりも正確な気象・降水量予測を生成し、最大12時間先まで予測可能です。また、従来の手法よりも迅速に、より最新の予報を生成することも可能であり、これは異常気象発生時に非常に重要となります。


正確な建物の敷地面積記録は、人口推計や都市計画から人道支援や環境科学に至るまで、幅広い用途に不可欠です。これまで、アフリカの大部分を含む世界の多くの地域ではこの情報が入手できませんでしたが、新たな研究によると、衛星画像にコンピュータービジョン技術を適用することで、アフリカ大陸全体の建物の境界を特定できることが示されています。このアプローチの結果は、アフリカ大陸の大部分をカバーする5億1,600万棟の建物の位置と敷地面積を含む、新しいオープンアクセスデータリソースであるOpen Buildings Datasetで公開されています。また、この独自のデータセットを世界食糧計画(WFP)と共同で使用し、機械学習を応用することで、自然災害後の迅速な被害評価を提供することにも成功しました。


健康分野での応用:

人工知能は基礎科学の発展に留まらず、より広範な医療と人類の健康に貢献することができます。医療分野におけるコンピュータサイエンスの活用は目新しいものではありません。しかし、機械学習は新たな扉を開き、新たな機会と課題をもたらします。

ゲノミクスを例に挙げましょう。コンピューターはゲノミクス研究において当初から重要な役割を果たしてきましたが、機械学習は新たな能力を追加し、従来のパラダイムを破壊しました。Googleの研究者がこの分野を研究していた当時、多くの専門家はディープラーニングを用いて遺伝子変異を推測するというアイデアは非現実的だと考えていました。しかし今日では、この機械学習によるアプローチは最先端と考えられています。GoogleがUCLA(カリフォルニア大学ロサンゼルス校)と共同で開発したオープンソースソフトウェア「DeepConsensus」と「Pepper-DeepVariant」は、最先端のインフォマティクス技術を支えています。より迅速なシーケンシングがすぐに実用化され、患者に真に貢献することを期待しています。

ゲノミクスを例に挙げましょう。計算技術は常にゲノミクスにとって不可欠な要素でしたが、機械学習手法は新たな可能性をもたらし、この分野に革命をもたらしました。当初、Googleの研究者がこの分野で機械学習を用いた際、多くの専門家はディープラーニングを用いてシーケンサーから遺伝子変異の存在を推測するという考えは非現実的だと考えていました。しかし、機械学習は現在、最も先進的な研究手法となっています。さらに、将来的にはさらに重要な役割を果たすでしょう。例えば、ゲノミクス企業は、より優れた推論能力を必要とする、より正確で高速な新しいシーケンサーを開発しています。私たちはまた、UCSCと共同でオープンソースソフトウェア「DeepConsensus」と「PEPPER-DeepVariant」をリリースし、これらの新しい機器に最先端のインフォマティクスサポートを提供しています。これらのより強力なシーケンサーが、一日も早く実際の患者に適用され、有益な影響を与えることを願っています。

図: シーケンスエラーを修正し、精度を向上できる DeepConsensus の Transformer 構造の概略図。

機械学習は、シーケンシングデータの処理にとどまらず、パーソナライズされた健康ゲノム情報の構築を加速するなど、様々な役割を果たすことができます。幅広い表現型とシーケンシングデータを持つ個人の大規模バイオバンクの構築は、疾患に対する遺伝的感受性の理解と管理方法に革命をもたらす可能性があります。機械学習に基づく表現型解析手法は、大規模な画像およびテキストデータセットを遺伝学的に重要な研究に利用可能な表現型に変換する際のスケーラビリティを向上させることができ、DeepNullもまた、大規模な表現型データを遺伝学研究に活用することができます。私たちは、これら2つのオープンソース手法を科学コミュニティに公開できることを大変嬉しく思っています。

図: バイオバンクのゲノムデータに基づいて生成された解剖学的特性および疾患特性の大規模な定量化プロセス。

機械学習はゲノムデータに隠れた特徴を発見するのに役立つのと同様に、他の種類の健康データから新たな情報を発見・収集するのにも役立ちます。疾患の診断には、パターン認識、関係性の定量化、多数のカテゴリにわたる新たな事例の特定といったタスクが含まれることが多く、これらはすべて機械学習が得意とする分野です。Googleの研究者は機械学習を用いて様々な問題を解決してきましたが、医用画像分野への応用ほど大きな進歩を遂げたものはおそらくないでしょう。

2016年、Googleは糖尿病網膜症のスクリーニングにおけるディープラーニングの応用に関する論文を発表しました。この論文は、米国医師会雑誌(JAMA)の編集者によって、この10年間で最も影響力のある10本の論文の1つに選ばれました。これは、この論文が機械学習と健康に広範な影響を与えただけでなく、この10年間で最も影響力のあるJAMA論文の1つでもあることを意味します。さらに、私たちの研究の影響は論文自体にとどまらず、現実世界におけるシステム構築能力にも及んでいます。私たちのグローバルパートナーネットワークを通じて、このプロジェクトは既にインド、タイ、ドイツ、フランスの何万人もの患者が、自力ではアクセスできない可能性のある疾患スクリーニングを受け、視力を脅かすこの病気を発見するのを支援しています。

乳がんスクリーニング、肺がん検出、がん放射線治療の加速、異常X線画像のマーキング、前立腺がん生検のグレーディングの改善に、機械学習支援システムがさらに導入されることを期待しています。機械学習はあらゆる分野で新たな支援を提供します。例えば、機械学習支援大腸内視鏡検査は、本来の範囲を超えた例です。大腸内視鏡検査は、大腸がんの診断だけでなく、手術中のポリープ除去にも使用され、病気の進行を止め、重篤な病気を予防する最前線となっています。この分野において、私たちは機械学習によって、医師がポリープを見逃さないようにし、検出が難しいポリープを検出し、同時位置特定およびマッピング技術を適用するなどして次元を追加して精度を向上させることができることを実証しました。エルサレムのシャアレ・ゼデク医療センターとの共同実験では、これらのシステムがリアルタイムで動作し、1回の処置あたり平均1つの潜在的なポリープを検出し、誤報は1回の処置あたり4件未満であることが実証されました。

図1. (A) 一般的な異常、(B) 結核、(C) COVID-19 の胸部X線画像(CXR)のサンプル。真陽性、偽陽性、真陰性、偽陰性の結果を示しています。各CXRにおいて、赤い枠線はモデルによって特定された関心領域(クラス活性化マップ)を表し、黄色の枠線は放射線科医によって特定された関心領域を表しています。

Care Studio は、最先端の機械学習と NLP 技術を使用して構造化データと医療記録を分析し、適切なタイミングで臨床医に関連情報を提供することで、より積極的かつ正確な治療の提供を支援する、もう 1 つの有望なヘルスケア イニシアチブです。

機械学習はリーチの拡大や臨床精度の向上に重要かもしれませんが、人々の日々の健康と幸福を向上させるためにそれを使用するという新しいトレンドが生まれています。私たちが毎日使用するデバイスには、健康指標と情報を広めるのに役立つ強力なセンサーが搭載されており、人々は健康についてより多くの情報に基づいた決定を下すことができます。追加のハードウェアなしで心拍数と呼吸数を測定できるスマートフォンカメラはすでに存在しています。Nest Hubデバイスは非接触型の睡眠追跡をサポートできるため、ユーザーは夜間の健康状態をよりよく理解できます。私たち自身のASRシステムの乱れた音声認識の品質を大幅に改善し、機械学習を使用して発話障害のある人が声を再構築し、自分の声でコミュニケーションできるようにすることができます。おそらく、機械学習を使用してスマートフォンで肌の状態をよりよく研究したり、視覚障害のある人がジョギングできるようにすることは、遠い展望ではありません。これらの機会は明るい未来を示しています。


非接触型睡眠センシング用のカスタム機械学習モデルは、連続 3D レーダー テンソル (さまざまな距離、周波数、時間にわたるアクティビティを要約したもの) を効果的に処理し、ユーザーが起きている可能性と眠っている可能性を自動的に計算できます。

気候危機における機械学習の応用:

気候変動もまた、人類にとって極めて差し迫った脅威であり、極めて重要な分野です。私たちは、将来の安全と繁栄を確保するため、有害な排出の傾向を逆転させるべく、協力して取り組む必要があります。様々な選択肢が気候に与える影響をより深く理解することで、この課題に様々な方法で取り組むことができます。

この目的のため、Google マップで環境に優しいルートを開始しました。この方法により、年間約 100 万トンの CO2 排出量(道路上の自動車台数 20 万台以上の削減に相当)を削減できると見込まれています。最近の実験的研究では、米国ソルトレイクシティで Google マップのナビゲーションを使用すると、より高速で環境に優しいルートが可能になり、CO2 排出量が 1.7%、移動時間が 6.5% 削減されることが示されています。さらに、地図ソフトウェアが電気自動車に適応しやすくなり、航続距離の不安を軽減し、排出ガスのない交通手段の利用を促進します。また、世界中の都市と協力し、集約された過去の交通データを使用して、信号機のタイミング設定の改善に役立てています。イスラエルとブラジルで行われた初期のパイロット研究では、チェックのある交差点での燃料消費と遅延が 10~20% 削減されました。

画像はGoogleマップを使用した最速かつ最も燃費の良いルートを表示しているため、自分に合ったルートを選択できます。

長期的には、核融合は世界を変革する再生可能エネルギー源となる可能性を秘めています。TAEテクノロジーズとの長期的な協力関係において、機械学習を活用し、1,000を超える関連制御パラメータを設定することで、核融合炉が安定したプラズマを維持できるよう支援してきました。このパートナーシップを通じて、TAEはノーマン炉の主要目標を達成し、平衡核融合の実現に一歩近づきました。この装置は、システムの使用可能電力範囲の限界である3,000万ケルビンの温度で、30ミリ秒間安定したプラズマを維持できます。彼らは現在、より強力な核融合装置を設計しており、10年以内に平衡核融合の実現に必要な条件を実証できることを期待しています。

さらに、私たちは火災や洪水の増加(そして何百万人ものカリフォルニア住民と同様に、定期的な「火災シーズン」への適応の必要性)にも取り組んでいます。昨年、衛星画像を利用した火災境界マップを公開し、アメリカ国民が自分のデバイスで火災の大まかな規模と場所を簡単に把握できるようにしました。また、Googleからのすべての火災情報を統合し、世界中に展開しました。さらに、グラフ最適化アルゴリズムを適用して火災避難経路を最適化し、急速に広がる火災から人々が安全に避難できるよう支援しています。2021年には、洪水予測プログラムの早期警報システムを前年比3倍以上の3億6000万人に拡大し、洪水の危険にさらされている人々のモバイルデバイスに1億1500万件以上の通知を直接送信しました。さらに、LSTM(長短期記憶)ベースの予測モデルとManifoldモデルを初めて実世界のシステムに導入し、システムのすべてのコンポーネントに関する詳細な情報を共有しました。

画像 | Google マップの火災マップは、緊急事態にある人々にとって重要な情報を提供します。

私たちは、持続可能性への取り組みの改善にも取り組んでいます。Google は、2007 年に大手企業として初めてカーボン ニュートラルを達成し、2017 年には 100% 再生可能エネルギーを使用する最初の企業となりました。業界で最もクリーンなグローバル クラウドを運用し、世界最大の再生可能エネルギー購入企業でもあります。2020 年には、世界中のすべてのデータセンターとキャンパスで 24 時間 365 日、カーボンフリー エネルギーを運用することを約束した最初の大手企業となりました。これは、エネルギー使用量を再生可能エネルギーと一致させる従来のアプローチよりも困難ですが、2030 年までにこの目標を達成したいと考えています。現在、機械学習モデルのトレーニングによる炭素排出量は、この分野の大きな懸念事項であり、モデル アーキテクチャ、データセンター、機械学習アクセラレータにおいて適切な選択を行うことで、炭素排出量を約 100 ~ 1000 分の 1 に削減できます。

トレンド5:機械学習のより深く広い理解

機械学習がテクノロジー製品や社会においてますます普及するにつれ、その公正かつ公平な適用を確保し、より多くの人々に利益をもたらすために、新たな技術の開発を継続していく必要があります。これは、私たちの「責任あるAIと人間中心のテクノロジー」研究グループの主要な研究テーマであり、責任に関する様々なトピックについて研究を行っている分野です。

ユーザーのオンライン商品アクティビティに基づくレコメンデーションシステムは、重要な研究分野です。これらのシステムは通常、複数の異なるコンポーネントで構成されているため、その公平性を理解するには、個々のコンポーネントの動作とそれらの組み合わせを深く掘り下げる必要があります。最近の研究では、個々のコンポーネントとレコメンデーションシステム全体の公平性を向上させる方法が明らかになり、これらの関係性をより深く理解することに貢献しています。さらに、ユーザーの隠れたアクティビティから学習する場合、レコメンデーションシステムは偏りのない方法で学習します。これは、ユーザーに以前表示されたアイテムから直接学習する方法が大きな偏りを示すためです。そして、この偏りが修正されなければ、より目立つように表示されるレコメンデーション製品ほど、将来のユーザーに頻繁にレコメンデーションされることになります。

レコメンデーションシステムと同様に、機械翻訳においても文脈は非常に重要です。ほとんどの機械翻訳システムは、追加の文脈を考慮せずに個々の文を独立して翻訳するため、性別、年齢、その他の領域に関連するバイアスを強める傾向があります。そのため、私たちは長年にわたり、翻訳システムにおけるジェンダーバイアスを軽減する方法を研究してきました。翻訳コミュニティの研究を支援するため、昨年、Wikipediaの人物紹介の翻訳に基づいて翻訳におけるジェンダーバイアスを調査し、データセットを公開しました。

機械学習モデルの導入においてよくあるもう一つの問題は、分布シフトです。モデルの学習に使用したデータの統計分布が、モデルへの入力に使用したデータの統計分布と一致しない場合、モデルの挙動が予測不能になることがあります。最近の研究では、Deep Bootstrapフレームワークを用いて、現実世界と「理想世界」の違いを比較しました。現実世界は有限の学習データを持ち、理想世界は無限のデータを持ちます。これら2つのシナリオ(現実と理想)におけるモデルの挙動をより深く理解することで、新しい環境に適したモデルを開発し、固定された学習データセットに対するバイアスを軽減することができます。

機械学習アルゴリズムとモデルの開発には大きな注目が集まっている一方で、研究者はデータ収集とデータセット管理にはあまり注意を払っていない傾向があります。しかし、機械学習モデルの学習に使用されるデータは、下流のアプリケーションにおいてバイアスや公平性の問題を引き起こす潜在的な要因となる可能性があるため、この研究も非常に重要です。機械学習におけるデータカスケードを分析することで、機械学習プロジェクトのライフサイクルにおいて、成果に大きな影響を与える可能性のある段階を特定することができます。このデータカスケードに関する研究は、主に機械学習の開発者と設計者を対象とした改訂版PAIRガイドラインにおけるデータ収集と評価を裏付けるエビデンスを提供しています。

この図では、様々な種類のデータカスケードを表す異なる色の矢印が示されています。各カスケードは通常、上流部分で発生し、機械学習開発プロセス中に統合され、下流部分に反映されます。

データのより深い理解は、機械学習研究において極めて重要です。私たちは、特定のトレーニングインスタンスが機械学習モデルに与える影響をより深く理解するための手法を研究しています。これは、ラベル付けの誤りや類似の問題がモデル全体の動作に大きな影響を与える可能性があるため、外れ値を特定して調査するのに役立ちます。また、機械学習の研究者や実務家がデータセットの特性をより深く理解できるように、「Know Your Data(データを知る)」ツールも開発しました。昨年は、「Know Your Data(データを知る)」ツールを使用してデータセットにおける性別や年齢の偏りなどの問題を調査する方法を示すケーススタディも実施しました。

「データの理解」のスクリーンショットは、魅力を表す単語と性別の関係を示しています。例えば、「魅力的」と「男性/男の人/少年」は12回同時に出現しましたが、ランダムに約60回出現すると予想されていました(0.2倍の比率)。一方、「魅力的」と「女性/女/少女」は2.62倍も同時に出現する確率が高く、ランダムに出現する確率の予想を上回りました。

ベンチマークデータセットの動的な利用は機械学習において中心的な役割を果たすため、その理解は極めて重要です。個々のデータセットに関する研究はますます一般的になっていますが、分野全体にわたるデータセットの動的な利用に関する研究は依然として十分には行われていません。私たちは最近の研究で、データセットの動的な作成、採用、再利用に関する大規模な実証分析を初めて発表しました。この研究は、より厳密な評価と、より公平で社会的責任のある研究を実現するための知見を提供します。

より包括的で偏りのない公開データセットを作成することは、機械学習分野の発展に貢献する上で重要な方法です。2016年には、数千のオブジェクトカテゴリをカバーする画像タグと600クラスのバウンディングボックスアノテーションが付与された約900万枚の画像を含むOpen Imagesデータセットをリリースしました。

昨年、私たちはInclusive People Annotation(MIAP)データセットをOpen Images Extendedコレクションに導入しました。このコレクションには、人間のより完全な階層構造を提供するバウンディングボックス・アノテーションが含まれており、各アノテーションには、性別や年齢層といった公平性に関する属性が付与されています。不公平なバイアスを削減するための取り組みが継続する中、また責任あるAI研究の一環として、これらのアノテーションが、既にOpen Imagesデータセットを使用している研究者が公平性分析を研究に取り入れるきっかけとなることを期待しています。

機械学習のパフォーマンスを向上させるためのデータセットを作成しているのは私たちのチームだけではありません。世界中のユーザーが私たちの助けを借りて新しく有用なデータセットを発見できる「データセット検索」方法も作成しました。

コミュニティの交流:


Googleは、過激な言葉遣い、ヘイトスピーチ、誤情報の拡散などを含むネットいじめへの対策を非常に真剣に受け止めています。これらの行為を確実かつ効率的に、そして大規模に検出する能力は、プラットフォームのセキュリティを確保し、機械学習がウェブ上で教師なしにネガティブな情報を複製するのを防ぐために不可欠です。この点において、Googleは業界をリードするPerspective APIツールを先駆的に開発しました。しかし、大規模なシナリオにおいて有害情報を正確に検出することは依然として複雑な問題です。最近、私たちは様々な学術パートナーと協力し、進化するオンラインヘイトやハラスメントの状況に対処するための包括的な分類法を導入しました。Googleはまた、マイクロ差別など、隠れた形態のネットいじめを検出する方法についても研究してきました。マイクロ差別はネットいじめにおいて見落とされがちです。マイクロ差別のような主観的な概念でデータに注釈を付ける従来の方法は、少数派を疎外する可能性が高いことがわかりました。そこでGoogleは、この問題に対処するため、マルチタスクフレームワークを用いた新しい分類モデリング手法を提案しました。さらに、Google の Jigsaw チームはジョージ・ワシントン大学の研究者と協力し、定性調査と Web レベルのコンテンツ分析を通じて、過激なヘイトグループがソーシャル メディア プラットフォーム上でどのように誤情報を拡散しているかを調査しました。

もう一つの潜在的な問題は、機械学習アルゴリズムが裏付けとなる証拠を欠いた結果を生成する場合があることです。質問応答、要約、対話におけるこの問題に対処するため、Googleはアルゴリズムの結果が特定の情報源に帰属可能かどうかを測定する新しいフレームワークを開発しました。アノテーションガイドラインを公開し、この信頼性の高い手法が候補モデルの評価に使用できることを実証しました。

機械学習言語の責任ある使用においては、モデルのインタラクティブな分析とデバッグが依然として重要です。Googleは、言語解釈可能性ツールの技術と機能をアップデートしました。アップデートには、画像と表形式データのサポート、What-Ifツールから継承された様々な機能、そしてコンセプト活性化ベクトルを用いたテスト技術を用いた公平性分析の組み込みサポートが含まれています。機械学習システムの解釈可能性は、Googleの「責任あるAIビジョン」の重要な部分でもあります。GoogleはDeepMindと共同で、自己学習型チェスシステムAlphaZeroが人間のチェス概念をどのように獲得したかを解明し始めました。

Googleはまた、「責任あるAI」の視点と枠組みを西洋の限界を超えて拡大することに取り組んでいます。最近の研究では、西洋の制度やインフラに基づくアルゴリズムの公平性の概念は、非西洋の文脈には適用できないことが示唆されています。この研究は、インドにおけるアルゴリズムの公平性研究の新たな方向性と道筋を示しています。Googleは、AIに関する人々の認識や嗜好をより深く理解するために、複数の大陸で積極的に調査を実施しています。西洋の視点に基づくアルゴリズムの公平性に関する研究は、一部の問題にのみ焦点を当てる傾向があり、非西洋の文脈におけるアルゴリズムの偏りに関する多くの問題が見落とされがちです。このギャップを埋めるため、私たちはミシガン大学と協力し、より広範な地理的・文化的文脈における言語の偏りを検出するための、弱教師付きシン自然言語処理(NLP)モデルを開発しました。このモデルは、異なる地理的環境における攻撃的言語と非攻撃的言語に対する人間の判断を反映しています。

さらに、Googleは、農家中心の機械学習研究プログラムの開発など、発展途上国における機械学習の応用についても検討を進めてきました。この取り組みを通じて、人工知能分野において、機械学習を活用したソリューションを何百万もの小規模農家に提供し、彼らの生活と地域社会の向上につなげる方法について、より深く考えるきっかけになればと考えています。

機械学習の研究と展開のあらゆる段階に社会全体のステークホルダーを関与させることは、Googleが目指す方向性であり、最も喫緊の課題を念頭に置いています。この原則に基づき、非営利団体のリーダー、政府およびNGOの代表者、その他の専門家と健康公平性研究サミットを開催し、機械学習エコシステム全体に公平性をもたらす方法を議論しました。これにより、初期の問題解決から成果評価の最終段階に至るまで、公平性の原則が確実に浸透します。

Googleは社会調査に基づくアプローチにより、機械学習システムにおいてデジタルウェルビーイングと人種的平等を考慮できるようになりました。Googleは、ASRシステムにおけるアフリカ系アメリカ人の経験についてより深く理解したいと考えています。また、家族介護など、人生の重要な出来事において機械学習がどのように役立つかを理解するために、より広く一般の人々の声に耳を傾けています。

機械学習の能力と影響力が様々な分野で増大するにつれ、機械学習におけるプライバシー保護は重要な研究課題となっています。この考え方に基づき、私たちは大規模モデルにおけるプライバシー問題の解決に取り組んでいます。Googleは、大規模モデルからのトレーニングデータの抽出と、BERTなどの大規模モデルにおけるプライバシー保護の実現方法の両方を重視しています。前述のフェデレーテッドラーニングとアナリティクス技術に加えて、私たちはプライバシー保護のために、他の原理的かつ実用的な機械学習技術も活用しています。これには、プライベートクラスタリング、プライベートパーソナライゼーション、プライベートマトリックス補完、プライベート加重サンプリング、プライベートクォンタイル、プライベート半空間ロバスト学習、プライベートPAC学習などが含まれます。さらに、ラベルプライバシー、ユーザーレベルおよびプロジェクトレベルのプライバシーなど、さまざまなアプリケーションや脅威モデルに合わせてカスタマイズ可能なプライバシー概念を継続的に拡張しています。

データセット:

Googleは、機械学習および関連研究におけるオープンデータセットの普遍的な価値を認識し、オープンソースのデータセットとリソースの拡大を継続しており、Google DataSet Searchにオープンデータセットのグローバルインデックスを追加しました。今年は、様々な研究分野にわたる幅広いデータセットとツールをリリースしました。


要約

学術研究が現実世界に影響を与えるまでには、しばしば何年もかかります。人工知能のパイオニアたちの研究は、今やGoogle製品と世界に劇的な影響を及ぼしています。TPUなどの機械学習アクセラレータや、TensorFlow、JAXなどのソフトウェアの開発は大きく進歩しました。Googleは、パフォーマンスが重要となる実験や本番環境において、その強力さと優れたパフォーマンスから、自社製品に機械学習モデルをますます多く採用しています。Seq2Seq、Inception、EfficientNet、Transformerといったモデルアーキテクチャの研究は、言語理解、視覚、音声認識といった分野の進歩を牽引しています。これらの分野は問題解決に革新的な影響を与えるため、こうした機械学習モデルは、検索、アシスタント、広告、クラウド、Gmail、マップ、YouTube、Workspace、Android、Pixel、Nest、Google翻訳など、多くの製品に広く導入されています。

機械学習とコンピュータサイエンスにとって、今はまさに刺激的な時代です。言語、視覚、音声を処理することで、コンピュータは周囲の世界を理解し、相互作用する能力をますます高めています。同時に、コンピュータは人類の新たなフロンティアを開拓することにも絶えず貢献しています。上記の5つの側面は、まさにこの長い進歩の旅における数々のマイルストーンと言えるでしょう。

オリジナルリンク:
https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html