|
本日、Googleの権威ジェフ・ディーン氏の主導により、この要約が遅ればせながらようやく公開されました。知識の普及を目的として、「Academic Headlines」は読者の皆様に以下の全文を翻訳いたします。 過去数十年にわたり、私は機械学習 (ML) とコンピュータサイエンス (CS) の分野における変化と発展を目の当たりにしてきました。 初期の方法にはしばしば欠陥があり、それが失敗につながりました。しかし、継続的な研究と改良により、現在では大きな成功を収めている一連の現代的な方法が登場しました。この長期的な発展の流れに沿って進めば、今後数年間で、最終的には数十億人の人々に恩恵をもたらし、かつてないほど大きな影響を与えるような、画期的な進歩が見られると確信しています。 この記事では、機械学習において大きな影響を与える可能性のある5つの分野に焦点を当てます。それぞれの分野について、関連する研究(主に2021年以降)と、今後数年間に見られる可能性のある方向性と進歩について考察します。
トレンド1: より強力な汎用MLモデルたとえば、ここ数年だけでも、言語の分野ではモデルが画期的な進歩を遂げ、数百億のデータトークンで数十億のパラメータをトレーニングするモデル(11パラメータのT5モデルなど)から、数千億または数兆のデータトークンで数千億または数兆のパラメータをトレーニングするモデル(OpenAIの175パラメータのGPT3モデルやDeepMindの280パラメータのGopherモデルなどの密なモデル、Googleの600パラメータのGShardモデルや1.2パラメータのGLaMモデルなどの疎なモデル)へと進化しました。データセットとモデルのサイズが拡大したことで、幅広い言語タスクで精度が大幅に向上しました。これは、言語モデルと機械翻訳モデルのニューラルスケーリング法則に関する研究で予測されているように、標準的な自然言語処理(NLP)ベンチマークタスクが全体的に改善されたことにも表れています。 これらの高度なモデルの多くは、単一ながらも重要な書き言葉のパターンに焦点を当てており、単一ドメイン内の複数のタスクにおいても、言語理解ベンチマークと自由形式の会話能力において最先端の結果を示しています。さらに、比較的少ないトレーニングデータで新しい言語タスクに一般化できるという優れた能力も示しています。新しいタスクでは、トレーニング例が実質的に存在しない場合もあります。単純な例としては、長文質問応答の改善、自然言語処理におけるゼロラベル学習、そして自由形式の会話に対応し、複数の会話ラウンドにわたって重要な文脈を維持する高度な能力を示すLaMDAモデルなどが挙げられます。 LaMDA との会話は、ウェッデル海の事前設定されたプロンプト「こんにちは、ウェッデル海です。何かご質問はありますか?」を模倣しています。モデルは、キャラクター内の会話を主に制御します。 生成モデルの出力も劇的に向上しました。ここ数年、特に画像生成モデルにおいて大きな進歩が見られました。例えば、最近のモデルは、単一のカテゴリ(「アイリッシュ・セッター」や「ストリートカー」など)のみを指定してリアルな画像を作成したり、低解像度の画像を「パディング」して驚くほど自然に見える高解像度のマッチング画像を作成したり、さらには任意の長さの自然なシーンを構築したりする能力を実証しています。別の例としては、画像を一連の離散的なトークンに変換し、自己回帰生成モデルを用いて高忠実度で合成する能力があります。 この図は、特定のカテゴリから新しい画像を生成し、これらの画像をシードとして使用して高解像度の例を作成するカスケード拡散モデルの例を示しています。最初のモデルは低解像度の画像を生成し、残りのモデルは最終的な高解像度画像へのアップサンプリングを実行します。 図 3 は、SR3 超解像拡散モデルが低解像度画像を入力として受け取り、純粋なノイズから対応する高解像度画像を構築することを示しています。 高度なシングルモーダルモデルに加え、大規模マルチモーダルモデルもますます注目を集めています。これらのモデルは、多様な入力モダリティ(言語、画像、音声、動画など)を受け入れることができ、場合によっては、説明文や段落から画像を生成したり、画像の視覚的内容を人間の言語で簡潔に説明したりするなど、異なる出力モダリティを生成できるため、現在最も先進的な技術と言えます。これは、現実世界と同様に、マルチモーダルデータでは学習が容易であるため(例えば、デモンストレーション付きの記事を読む方が、単に読むよりもはるかに有益であるなど)、非常に興味深い研究分野です。したがって、画像とテキストを組み合わせることは多言語検索タスクに役立ち、テキストと画像の入力を組み合わせる方法をより深く理解することで、画像キャプション作成タスクの改善につながります。同様に、画像とテキストデータの共同学習は、画像分類タスクの精度と堅牢性を向上させるのに役立ち、画像、動画、音声タスクの共同学習は、すべてのモダリティにわたる汎化性能を向上させることができます。自然言語が画像処理の入力として利用され、ロボットに世界とのインタラクションや他のソフトウェアシステムの制御方法を指示できるという魅力的な兆候も見られ、ユーザーインターフェースの開発方法に変化をもたらす可能性を示唆しています。これらのモデルは、音声、音、画像、動画、言語などのパターンを処理し、さらには構造化データ、ナレッジグラフ、時系列データなどにまで拡張される可能性があります。
これらすべてのトレンドは、複数のデータパターンを処理し、数千、数百万のタスクを解決できる、非常に高性能な汎用モデルのトレーニングへと向かっています。特定のタスクに対して、そのタスクに最適化された部分のみをアクティブ化するスパースモデルを構築することで、これらのマルチモーダルモデルはより効率的になります。今後数年間、私たちはこのビジョンを「Pathways」と呼ばれる次世代アーキテクチャと統合プロジェクトで追求していきます。これまでに開発した多くのアイデアを組み合わせることで、この分野で大きな進歩が見込まれると期待しています。
コンピュータハードウェア設計、MLアルゴリズム、そしてメタ学習研究の進歩は、MLモデルの効率向上を加速させ、より高度な機能へと導いています。モデルのトレーニングと実行のためのハードウェアからMLアーキテクチャの個々のコンポーネントに至るまで、MLパイプラインの多くの側面は、全体的なパフォーマンスを維持または向上させながら、効率性を高めるために最適化することが可能です。これらの様々なスレッドはそれぞれ、大幅な乗数によって効率性を向上させることができ、わずか数年前と比べて計算コストを桁違いに削減できます。この効率性の向上は、MLの効率性を大幅に向上させ続ける多くの重要な進歩を可能にし、よりコスト効率の高いペースでより大規模で高品質なMLモデルを開発し、アクセシビリティをさらに向上させることを可能にします。私はこれらの研究の方向性に非常に興奮しています。 ML アクセラレータのパフォーマンスの継続的な改善: MLアクセラレータの各世代は前世代から改良を重ね、各チップの高速化に伴い、システム全体のサイズは一般的に拡大します。高速ネットワークで接続された多数のチップを搭載したポッドは、大規模モデルの効率を向上させることができます。 もちろん、モバイルデバイスの機械学習機能も大幅に向上しています。Pixel 6は、強力な機械学習アクセラレータを統合した最新のGoogle Tensorプロセッサを搭載し、デバイス上の重要な機能をより適切にサポートします。 当社では、ML を使用してさまざまなコンピュータ チップの設計を加速しています (詳細は後述)。これにより、特に優れた ML アクセラレータの製造においてメリットがもたらされます。 ハードウェアに変更を加えなくても、MLアクセラレータのコンパイラとシステムソフトウェアをさらに最適化することで、効率を大幅に向上させることができます。例えば、「マルチチャネル機械学習コンパイラの自動チューニングへの柔軟なアプローチ」では、MLを用いてコンパイラ設定を自動チューニングする方法を示しており、同一の基盤ハードウェア上で単一のMLプログラムを実行する場合、全体的なパフォーマンスを5~15%(場合によっては最大2.4倍)向上させることができます。GSPMDは、XLAコンパイラに基づく自動並列化システムについて説明しています。このシステムは、ほとんどのディープラーニングネットワークアーキテクチャをアクセラレータのメモリ容量を超えて拡張することができ、GShard-M4、LaMDA、BigSSL、ViT、MetNet-2、GLaMといった多くの大規模モデルに適用され、複数の領域にわたって最先端の結果をもたらしています。 この図は、150個のMLモデルに対してMLベースコンパイラを用いた自動チューニングを行うことで、エンドツーエンドのモデリングを高速化できることを示しています。これには、5%以上の改善が達成されたモデルも含まれます。バーの色は、モデルの各コンポーネントにおける相対的な改善度を表しています。 モデルアーキテクチャの継続的な改善により、多くの問題において一定レベルの精度を達成するために必要な計算コストが大幅に削減されました。例えば、2017年に開発したTransformerアーキテクチャは、いくつかのNLPタスクと翻訳ベンチマークにおける技術レベルを向上させました。同時に、これらの結果は、LSTMやその他のリカレントアーキテクチャといった他の一般的な手法と比較して、10~100倍少ない計算量で達成できます。同様に、Visual Transformerは、畳み込みニューラルネットワークと比較して4~10倍少ない計算量で、多くの異なる画像分類タスクにおいて最先端の結果を示しました。 より効率的なモデル アーキテクチャによる機械駆動型の検出: ニューラルアーキテクチャ探索(NAS)は、特定の問題領域に対して、より効率的で斬新な機械学習アーキテクチャを自動的に発見します。NASの主な利点は、探索空間と問題領域の組み合わせごとに1回の操作のみで済むため、アルゴリズム開発に必要な労力を大幅に削減できることです。さらに、NAS実行の初期作業は計算コストが高くなる場合がありますが、結果として得られるモデルは下流の研究環境や実稼働環境における計算量を大幅に削減し、全体的なリソース要件を大幅に削減できます。例えば、進化型トランスフォーマーを発見するための1回の検索では、CO2e排出量はわずか3.2トンでしたが、標準的なトランスフォーマーモデルよりも15~20%効率の高いモデルが生成され、NLPコミュニティの誰もが利用できます。近年のNASの活用により、さらに効率的なアーキテクチャであるPrimer(オープンソース)が発見され、標準的なトランスフォーマーモデルと比較してトレーニングコストを4分の1に削減できます。このように、NAS検索の発見コストは、たとえ少数の下流タスクにしか適用されなくても、発見されたより効率的なモデルアーキテクチャを使用することで相殺できる場合が多くあります。 図 | NASが発見したPrimerアーキテクチャは、通常のTransformerモデルと比較して4倍の効率性を備えています。この図(赤色部分)は、Primerの2つの主要な改良点を示しています。深さ方向畳み込みによるマルチヘッド投影アテンションと2乗ReLU活性化です(青色部分はオリジナルのTransformerを表しています)。 スパース性の使用: スパース性はアルゴリズムにおけるもう一つの重要な進歩であり、効率を劇的に向上させます。スパース性とは非常に大きな容量を持つモデルを指しますが、特定のタスク、例、またはトークンに対して、モデルの特定の部分のみがアクティブ化されます。2017年に、Sparsely-Gated Mixture-of-Experts Layerを導入し、計算上の優位性を維持しながら、さまざまな翻訳ベンチマークで優れたパフォーマンスを実証しました。これにより、以前の最先端の高密度LSTMモデルと比較して10倍の計算量で済みます。さらに最近では、Switch Transformerは、エキスパートスタイルのハイブリッドアーキテクチャとTransformerモデルアーキテクチャを組み合わせ、高密度のT5-Base Transformerモデルと比較して、トレーニング時間と効率が7倍向上しました。GLaMモデルは、Transformerとエキスパートスタイルのハイブリッドレイヤーを組み合わせて新しいモデルを作成できることを実証しています。このモデルは、29のベンチマークで平均してGPT-3モデルを上回り、トレーニングエネルギーは3分の1、推論計算は2分の1で済みます。スパース性の概念は、Transformer のコア アーキテクチャにおけるアテンション メカニズムのコストを削減するためにも使用できます。 BigBirdのスパースアテンションモデルは、グローバルトークン(入力シーケンスの全部分を処理するために使用される)、ローカルトークン(入力シーケンスの全部分を処理するために使用される)、およびランダムトークンの集合で構成されています。理論的には、これはWatts-Strogatzグラフにいくつかのグローバルトークンを追加するものと解釈できます。 これらの効率向上手法を組み合わせることで、米国で平均的にP100 GPUを使用してトレーニングされたベースラインTransformerモデルと比較して、エネルギー効率を100倍向上させ、CO2e排出量を650分の1に削減できます。これは、再生可能エネルギーによって100%相殺されているGoogleのカーボンニュートラルを考慮に入れていません。 トレンド 3: 機械学習は個人やコミュニティにとってさらに有益になっています。人々は、日常生活や創造的なインスピレーションを捉えるために、これまで以上にスマートフォンのカメラに頼っています。コンピューテーション・フォトグラフィーにおける機械学習の巧妙な応用により、スマートフォンのカメラは進化し、使いやすく、より高品質な画像を生み出しています。HDR+の改良、低照度性能の向上、ポートレート処理の改良、そしてよりインクルーシブな表現といった先進技術により、スマートフォンのカメラは被写体をよりリアルに映し出すことができます。Googleフォトの強力な機械学習ツール(マジックイレーサーなど)は、写真をさらに最適化します。 モバイルでの作成以外にも、多くの人がリアルタイムの異言語コミュニケーションにスマートフォンを利用しています。例えば、通話時にライブ翻訳やライブキャプションを使用しています。自己教師学習や雑音下での学習トレーニングなどの技術のおかげで、音声認識の精度は向上し続けています。アクセントのある音声、雑音の多い音声、重なり合う音声に対しても、大幅な改善が見られました。テキスト音声合成の進歩を基盤として、Google Read Aloud を使用すると、ますます多くのプラットフォームでウェブページや記事を聴くことができるようになり、情報へのアクセスが安価になり、モーダルおよび言語の障壁を克服できます。Google 翻訳のリアルタイム音声翻訳機能は、常に即時に翻訳を生成することで大幅に向上しました。高品質の音声翻訳は、多言語コミュニケーションにおけるユーザーエクスペリエンスを向上させます。Lyra 音声コーデックと Soundstream オーディオコーデックでは、機械学習と従来のコーデック方式を組み合わせることで、音声、音楽、その他のサウンドをはるかに低いビットレートで忠実に伝送できます。 これらの機能で使用されるデータの機密性を考慮すると、デフォルトで共有しないように設定することが重要です。上記の機能の多くは、Android の Private Compute Core で実行されます。これは、オペレーティングシステムの他の部分から分離されたオープンソースの安全な環境です。Android は、Private Compute Core 内のデータがユーザーの同意なしにアプリと共有されないよう保護しています。また、Private Compute Core 内の機能がネットワークに直接アクセスすることも防止しています。これらの機能は、少数のオープンソース API を介して Private Compute Services と通信することで、個人情報の機密情報を削除し、フェデレーションラーニング、フェデレーションアナリティクス、プライベート情報取得などの機能を使用してプライバシーを保護することができます。 これらの技術は、次世代のコンピューティングとインタラクションのパラダイム開発に不可欠です。そこでは、個人用デバイスや公共デバイスがプライバシーを侵害することなく、(アルゴリズム)モデルの学習と訓練を支援する必要があります。連合型の教師なし学習手法は、よりインテリジェントなシステムを構築できます。これらのシステムは、より直感的にインタラクションし、機械というよりは社会的な存在に似ています。これらのインテリジェントシステムがニューラルコンピューティングを広く公平にサポートできるようにするには、私たちの技術に根本的な変革を起こす必要があります。 トレンド 4: 機械学習は科学、健康、持続可能な開発にますます大きな影響を与えています。コンピューター ビジョンは新たな洞察を提供します。 過去10年間、コンピュータビジョンの進歩により、コンピュータは様々な科学分野において幅広いタスクを実行できるようになりました。神経科学では、自動再構成技術により、薄切片の高解像度電子顕微鏡画像から脳組織の神経接続を再構成することが可能です。Googleはこれまでもショウジョウバエやマウスの脳を研究するためのリソースを作成してきましたが、昨年はハーバード大学のリヒトマン研究室と共同で、人間の皮質シナプス接続に関する初の大規模研究を実施しました。この研究は、皮質の全層にわたる複数の細胞種を対象としました。この研究の目的は、神経科学者が驚異的な人間の脳を研究するのを支援することです。例えば、下の画像は、成人の脳にある約860億個のニューロンのうち6つを示しています。 人工知能は基礎科学の発展に留まらず、より広範な医療と人類の健康に貢献することができます。医療分野におけるコンピュータサイエンスの活用は目新しいものではありません。しかし、機械学習は新たな扉を開き、新たな機会と課題をもたらします。 ゲノミクスを例に挙げましょう。コンピューターはゲノミクス研究において当初から重要な役割を果たしてきましたが、機械学習は新たな能力を追加し、従来のパラダイムを破壊しました。Googleの研究者がこの分野を研究していた当時、多くの専門家はディープラーニングを用いて遺伝子変異を推測するというアイデアは非現実的だと考えていました。しかし今日では、この機械学習によるアプローチは最先端と考えられています。GoogleがUCLA(カリフォルニア大学ロサンゼルス校)と共同で開発したオープンソースソフトウェア「DeepConsensus」と「Pepper-DeepVariant」は、最先端のインフォマティクス技術を支えています。より迅速なシーケンシングがすぐに実用化され、患者に真に貢献することを期待しています。 ゲノミクスを例に挙げましょう。計算技術は常にゲノミクスにとって不可欠な要素でしたが、機械学習手法は新たな可能性をもたらし、この分野に革命をもたらしました。当初、Googleの研究者がこの分野で機械学習を用いた際、多くの専門家はディープラーニングを用いてシーケンサーから遺伝子変異の存在を推測するという考えは非現実的だと考えていました。しかし、機械学習は現在、最も先進的な研究手法となっています。さらに、将来的にはさらに重要な役割を果たすでしょう。例えば、ゲノミクス企業は、より優れた推論能力を必要とする、より正確で高速な新しいシーケンサーを開発しています。私たちはまた、UCSCと共同でオープンソースソフトウェア「DeepConsensus」と「PEPPER-DeepVariant」をリリースし、これらの新しい機器に最先端のインフォマティクスサポートを提供しています。これらのより強力なシーケンサーが、一日も早く実際の患者に適用され、有益な影響を与えることを願っています。 図: シーケンスエラーを修正し、精度を向上できる DeepConsensus の Transformer 構造の概略図。 図: バイオバンクのゲノムデータに基づいて生成された解剖学的特性および疾患特性の大規模な定量化プロセス。 2016年、Googleは糖尿病網膜症のスクリーニングにおけるディープラーニングの応用に関する論文を発表しました。この論文は、米国医師会雑誌(JAMA)の編集者によって、この10年間で最も影響力のある10本の論文の1つに選ばれました。これは、この論文が機械学習と健康に広範な影響を与えただけでなく、この10年間で最も影響力のあるJAMA論文の1つでもあることを意味します。さらに、私たちの研究の影響は論文自体にとどまらず、現実世界におけるシステム構築能力にも及んでいます。私たちのグローバルパートナーネットワークを通じて、このプロジェクトは既にインド、タイ、ドイツ、フランスの何万人もの患者が、自力ではアクセスできない可能性のある疾患スクリーニングを受け、視力を脅かすこの病気を発見するのを支援しています。 乳がんスクリーニング、肺がん検出、がん放射線治療の加速、異常X線画像のマーキング、前立腺がん生検のグレーディングの改善に、機械学習支援システムがさらに導入されることを期待しています。機械学習はあらゆる分野で新たな支援を提供します。例えば、機械学習支援大腸内視鏡検査は、本来の範囲を超えた例です。大腸内視鏡検査は、大腸がんの診断だけでなく、手術中のポリープ除去にも使用され、病気の進行を止め、重篤な病気を予防する最前線となっています。この分野において、私たちは機械学習によって、医師がポリープを見逃さないようにし、検出が難しいポリープを検出し、同時位置特定およびマッピング技術を適用するなどして次元を追加して精度を向上させることができることを実証しました。エルサレムのシャアレ・ゼデク医療センターとの共同実験では、これらのシステムがリアルタイムで動作し、1回の処置あたり平均1つの潜在的なポリープを検出し、誤報は1回の処置あたり4件未満であることが実証されました。
尽管机器学习可能对扩大访问量和提高临床准确性很重要,但我们发现有新的趋势正在出现:使用机器学习帮助人们的日常健康和幸福。我们日常使用的设备都部署有强大的传感器,可以帮助人们普及健康指标和信息,使人们可以对自己的健康做出更明智的决定。目前已经有了可以评估心率和呼吸频率的智能手机摄像头,并且无需额外的硬件设备。Nest Hub 设备可以支持非接触式睡眠感知,让用户更好地了解自己的夜间健康状况。我们可以在自己的ASR 系统中显著提高无序语音识别的质量,也可以使用机器学习帮助有语音障碍的人重塑声音,使他们能够用自己的声音交流。也许,使用机器学习让智能手机帮助人们更好地研究皮肤病状况,或者帮助视力有限的人慢跑,并不是遥不可及的:这些机遇证明未来是光明的。 机器学习在气候危机中的应用: 气候变化也是一个至关重要的领域,对人类来说具有非常紧迫的威胁。我们需要共同努力来扭转有害排放的趋势,以确保未来的安全和繁荣。而更好地了解不同选择对气候的影响,可以帮助我们用多种方式应对这一挑战。 为此,我们在谷歌地图中推出了环保路线,预计该方法可以每年节省约100 万吨二氧化碳排放(相当于在道路上减少20 多万辆汽车)。最近的实验研究表明,在美国盐湖城使用谷歌地图导航可以实现更快、更环保的路线,节省了1.7% 的二氧化碳排放量和6.5% 的旅行时间。此外,还可以让地图软件更好地适应电动汽车,帮助缓解里程焦虑,鼓励人们使用无排放的交通工具。我们还与世界各地的城市进行合作,利用汇总的历史交通数据,帮助改善交通灯计时设置。在以色列和巴西进行的一项早期试点研究显示,有检查十字路口的燃油消耗和延误时间减少了10-20%。
并且,我们还得努力应对越来越常见的火灾和洪水(像数百万加州人一样不得不适应定期的“火灾季节”)。去年,我们发布了一份由卫星数据支持的火灾边界地图,帮助美国人轻松地在自己设备上了解火灾的大致规模和位置。我们还将谷歌上所有的火灾信息进行整合,并在全球范围内进行推出。我们也一直在应用图形优化算法来帮助优化火灾疏散路线,以帮助人们安全逃离快速推进的火灾。2021 年,我们的洪水预报计划的预警系统覆盖范围扩大到3.6 亿人,是前一年的三倍以上,并向面临洪灾风险人群的移动设备直接发送了1.15 亿多条通知。我们还首次在现实世界系统中部署了基于LSTM(长短时记忆网络)的预测模型和Manifold 模型,并分享了系统中所有组件的详细信息。
趋势5:对机器学习有更深入和更广泛的理解基于用户在线产品活动的推荐系统是研究的重点领域。由于这些推荐系统通常由多个不同部分组成,理解它们的公平性往往需要深入了解单个部分以及各个部分组合在一起时的行为。最近的研究工作揭示了提高单个部分和整个推荐系统的公平性的方法,有助于更好地理解这些关系。此外,当从用户的隐藏活动中学习时,推荐系统以一种无偏差的方式进行学习。因为从以前用户所展示的项目中直接学习的方法中会表现出很明显的偏差。并且如果不对这种偏差进行纠正,推荐产品被展示的位置越显眼,它们就越容易被频繁推荐给未来的用户。 与推荐系统一样,上下文环境在机器翻译中也很重要。因为大多数机器翻译系统都是独立地翻译单个句子,并没有额外的上下文环境。在这种情况下,它们往往会加强与性别、年龄或其他领域有关的偏见。为此,我们长期以来一直在研究如何减少翻译系统中的性别偏见。为了帮助翻译界研究,去年我们基于维基百科传记的翻译来研究翻译中的性别偏见,并发布了一个数据集。 部署机器学习模型的另一个常见问题是分布转移:如果训练模型的数据统计分布与输入模型的数据统计分布不一致,那么有时模型的行为是不可预测的。最近的研究中,我们使用Deep Bootstrap 框架来比较现实世界和“理想世界”(ideal world)的区别,前者的训练数据是有限的,而后者拥有无限的数据。更好地理解模型在这两种情况下(真实与理想)的行为,可以帮助我们开发出更适用于新环境的模型,并减少在固定训练数据集上的偏差。 尽管人们对机器学习算法和模型开发的工作有极大的关注,但研究者们对于数据收集和数据集的管理往往关注较少,但这些研究也非常重要,因为机器学习模型所训练的数据可能是下游应用中出现偏见和公平性问题的潜在原因。分析机器学习中的数据级联可以帮助我们识别机器学习项目生命周期中,可能对结果产生重大影响的环节。这项关于数据级联的研究已经在修订后的PAIR 指南中为数据收集和评估提供了证据支持,该指南主要面向的是机器学习的开发人员和设计人员。 图丨不同颜色的箭头表示各种类型的数据级联,每个级联通常起源于上游部分,在机器学习开发过程中复合,并体现在下游部分。 图丨“了解你的数据”截图显示了描述吸引力和性别词汇之间的关系。例如,“有吸引力的”和“男性/男人/男孩”同时出现12 次,但我们预计偶然出现的次数约为60 次(比例为0.2 倍)。另一方面,“有吸引力的”和“女性/女人/女孩”同时出现的概率是2.62 倍,超过预计偶然出现的情况。 对每个人来说,创建更具包容性和更少偏见的公共数据集是帮助改善机器学习领域的一个重要方法。2016 年,我们发布了开放图像(Open Images)数据集,它包含了约900 万张图片,这些图片用图像标签标注,涵盖了数千个对象类别和600 类的边界框标注。 去年,我们在开放图像扩展(Open Images Extended)集合中引入了包容性人物标注(MIAP)数据集。该集合包含更完整人类层次结构的边界框标注,每个标注都带有与公平性相关的属性,包括感知的性别和年龄范围。随着人们越来越致力于减少不公平的偏见,作为负责任的人工智能(Responsible AI)研究的一部分,我们希望这些标注能够鼓励已经使用开放图像数据集的研究人员在他们的研究中纳入公平性分析。 我们的团队并不是唯一一个创建数据集来改善机器学习效果的团队,我们还创建了“数据集搜索”(Dataset Search)方法,使得无论来自哪里的用户都可以在我们的帮助下发现新的和有用的数据集。 社区互动:另一个潜在的问题是,机器学习算法生成的模型有时会产生缺乏证据支持的结果。为了在问题回答、总结和对话中解决这一问题,谷歌开发了一个新的框架来衡量算法结果是否可以归因于特定的来源。我们发布了注释指南,并证明可以使用这项可靠的技术来对候选模型进行评估。 模型的交互式分析和调试仍然是负责任地使用机器学习语言的关键。谷歌对Language Interpretability Tool 的技术和功能进行了更新。更新包括对图像和表格数据的支持,从What-If Tool 中继承下来的各种功能,以及Testing with Concept Activation Vectors 技术对公平性分析的内置支持。机器学习系统的可解释性也是谷歌提出的“负责任的AI 愿景”(Responsible AI vision)的关键部分。在与DeepMind 的合作下,谷歌开始了解自我训练的AlphaZero国际象棋系统是如何获取人类的象棋概念的。 谷歌还在努力拓宽“负责任的人工智能”的视角和格局,使其超越西方的局限。一项最近的研究提出在非西方背景下,基于西方机构和基建的算法公平概念并不适用。研究为印度的算法公平研究提供了新方向和新途径。谷歌正在几大洲积极开展调查,以更好地了解人们对人工智能的看法和偏好。西方视角下的算法公平研究倾向于只关注少数几个问题,因此导致很多非西方背景下的算法偏见问题被忽略。为了解决这一差距,我们与密歇根大学(University Of Michigan)合作,开发了一种弱监督薄的自然语言处理(NLP)模型,以便在更广泛的地理文化语境中检测出语言偏见,反映人类在不同的地理环境中对攻击性和非攻击性语言的判断。 此外,谷歌还探索了机器学习在发展中国家的应用,包括开发一个以农民为中心的机器学习研究方案。通过这项工作,我们希望鼓励人工智能领域更多思考如何将机器学习支持的解决方案带给千万小农户,以改善他们的生活和社区。 让整个社会的利益相关方参与到机器学习研发部署的各阶段是谷歌正在努力的方向,这让谷歌牢记什么才是最需要解决的问题。本着这一原则,我们和非营利组织负责人、政府和非政府组织代表以及其他专家之间举行了健康公平研究峰会(Health Equity Research Summit),讨论如何将更多的公平带入整个机器学习的生态系统,使公平原则从最初的解决问题贯穿到结果评估的最后一步。 从社会出发的研究方法让谷歌在机器学习的系统中就思考数字福利和种族平等问题。谷歌希望更多了解非洲裔美国人对ASR 系统的体验。谷歌也在更广泛地听取公众的意见,以了解机器学习如何在重大生活事件中提供帮助,例如提供家庭照顾。 随着机器学习能力的提高和在许多领域的影响,机器学习中的隐私保护是一个研究重点。沿着这个思路,我们力求解决大型模型中的隐私问题。谷歌既强调训练数据可以从大型模型中提取,也指出了如何在大型模型(例如BERT)中实现隐私保护。除了上面提到的联邦学习和分析技术,我们还一直在使用其他原则性和实用性的机器学习技术来保护隐私。例如私有聚类、私有个性化、私有矩阵补全、私有加权采样、私有分位数、半空间的私有稳健学习,以及私有PAC 学习。此外,我们一直在扩展可针对不同应用和威胁模型定制的隐私概念,包括标签隐私和用户与项目级别隐私。 データセット: 谷歌认识到开放数据集对机器学习和相关研究领域的普遍价值,我们继续扩大我们的开源数据集和资源,并在Google DataSet Search 中增加了开放数据集的全球索引。今年,我们发布了一系列各个研究领域的数据集和工具: 对机器学习和计算机科学来说,这是一个激动人心的时代。通过处理语言、视觉和声音,计算机理解周围的世界并与之互动的能力在不断提高。同时计算机也在不断为人类开拓新疆界贡献力量。前文所述的五个方面正是这漫长旅程中的许多进步的节点! |