|
マシンハートレポート 参加者: Ze Nan、Dan Jiang、Du Wei
自然言語処理の第一人者であるGLUEデータセットは、長年にわたり、様々な機関のNLP事前学習能力を評価するための最も重要な指標の一つとなっています。近年、このデータセットでより良い結果が得られていることは、テクノロジー企業の技術進歩の証となっています。しかしながら、既存のNLPベンチマークのほとんどは英語タスクに限定されており、他の言語におけるNLPモデルの能力を評価することはできません。 最近、CMU、Google Research、DeepMind の科学者らは、この問題を一挙に解決することを目指し、40 の言語を対象とする大規模な多言語マルチタスク ベンチマークである XTREME を提案しました。 自然言語処理(NLP)が直面する主要な課題の一つは、英語だけでなく世界中の約6,900の言語で動作するシステムを構築することです。幸いなことに、ほとんどの言語はデータがまばらで、単独では堅牢なモデルを学習するのに十分なデータがありませんが、多くの言語は基盤となる構造をかなり共通しています。 さらに、NLP分野の多くの手法では、データのスパース性の問題を克服するために、学習中に複数言語間で共有される構造を活用しています。しかし、これらの手法のほとんどが、複数の言語で特定のタスクを実行することに焦点を当てているという欠点があります。近年、ディープラーニングの進歩により、mBERT、XLM、XLM-Rなど、言語間で共有され、複数のタスクに役立つ知識を獲得することを目指した、汎用的な多言語表現の学習を試みる手法が増えています。しかし、実際には、これらの手法の評価は、多くの場合、タスクの小さなサブセットと類似言語に焦点を当てています。 そこで、多言語学習分野におけるさらなる研究を促進するため、Google ResearchはCMUおよびDeepMindと共同で、「XTREME:言語間一般化を評価するための大規模多言語マルチタスクベンチマーク」と題した研究論文を発表しました。この研究は、40種類の言語(12の言語族)を対象とし、異なる構文レベルまたは意味レベルでの推論を必要とする9つのタスクが含まれています。 XTREME大規模多言語マルチタスクベンチマークでは、言語の多様性、既存タスクのカバレッジ、トレーニングデータの可用性を最大化するために、40種類の言語が選択されました。これらの言語の中には、ドラヴィダ語族のタミル語(南インド、スリランカ、シンガポール)、テルグ語、マラヤーラム語(主に南インドに集中)、ニジェール・コンゴ語族のスワヒリ語とヨルバ語(アフリカ)など、あまり研究されていない言語も含まれています。
論文リンク: https://arxiv.org/pdf/2003.11080.pdf プロジェクトアドレス: https://github.com/google-research/xtreme
XTREME論文の共同筆頭著者は、カーネギーメロン大学言語技術研究所の博士課程の学生であるJunjie Hu氏と、DeepMindの著名な研究科学者であるSebastian Ruder氏です。
エクストリーム XTREMEのタスクは、文分類、構造化予測、文検索、質問応答など、幅広いスタイルを網羅しています。したがって、モデルがXTREMEで良好なパフォーマンスを発揮するには、複数の標準的な言語間転移設定に一般化できる表現を学習する必要があります。 XTREME は次のタスク タイプをサポートしています。 各タスクは40言語のサブセットを網羅しています。XTREME分析で使用されるリソースの少ない言語での追加データを取得するために、2つの代表的なタスクである自然言語推論(XNLI)と質問応答(XQuAD)のテストセットは、英語から他の言語に自動翻訳されています。これらの翻訳されたテストセットを使用してタスクを実行した場合のモデルのパフォーマンスは、手動でラベル付けされたテストセットを使用した場合と同等です。
ゼロショット評価 XTREMEを用いてモデルのパフォーマンスを評価する前に、まず、言語間学習をサポートする多言語テキストを用いてモデルを事前学習する必要があります。次に、タスク固有の英語データを用いてモデルを微調整します。これは、ラベル付きデータが最も入手しやすい言語である英語を用いたためです。その後、XTREMEは、タスク固有のデータが利用できない他の言語も含め、これらのモデルのゼロショット言語間転送パフォーマンスを評価します。 次の図は、「事前トレーニング - 微調整 - ゼロショット転送」のプロセスを示しています。 モデルの言語間転移学習プロセスは次のとおりです。1. 多言語テキストの事前トレーニング。2. 英語を使用したダウンストリームタスクの微調整。3. XTREME を使用したゼロショット評価。 実際には、このゼロショット設定の利点は計算効率にあります。事前学習済みモデルは、各タスクの英語データで微調整するだけで、他の言語の評価に直接適用できます。しかし、ラベル付きデータを用いた他言語のタスクでは、研究者らは微調整結果をさらに比較し、9つのXTREMEタスクのゼロショットスコアに基づいて最終的な複合スコアを算出しました。
転移学習テストプラットフォーム 研究者たちは、次のようないくつかの多言語事前トレーニング済み最先端 (SOTA) モデルを使用して実験を実施しました。 多言語 BERT (mBERT): BERT の多言語拡張バージョン。 XLM および XLM-R: 「多言語 BERT」のより大規模で、より多くのデータ処理バージョン。 M4: 大規模多言語機械翻訳モデル。 選ばれたすべてのモデルには共通の特徴があります。それは、複数の言語の膨大なデータで事前学習されていることです。今回の実験では、研究者らはこれらのモデルのバリエーションを使用しました。これらのバリエーションは、XTREME上の40言語を含む約100言語で事前学習されています。 実験結果によると、このモデルは既存の英語タスクのほとんどにおいて人間のパフォーマンスに近いパフォーマンスを発揮しましたが、他の多くの言語では大幅に遅れをとりました。すべてのモデルの中で、英語と他の言語間のパフォーマンスの差が最も顕著だったのは、構造化予測と質問応答タスクでした。また、構造化予測と文検索タスクでは、言語間で結果の分布が最も大きく異なっていました。 下の図は、ゼロショット設定における最高性能モデルXLM-Rの性能を、タスクと言語別に分類した全言語族間で示しています。異なるタスク間のスコアは直接比較できません。ここでは、同じタスクにおける異なる言語族内の相対的な順位に焦点を当てています。図に示すように、インド・ヨーロッパ語族などのリソース豊富な言語の多くは、一貫して高い順位を獲得しています。一方、チベット語、日本語、韓国語などの他の言語では、このモデルのパフォーマンスは低下しています。 XTREMEベンチマークにおいて、すべてのタスクと言語において、ゼロショット設定で最高性能モデル(XLM-R)のパフォーマンスを示します。スコアはタスク固有の指標に基づくパーセンテージであり、異なるタスク間の直接的な比較はできません。人間のパフォーマンス(利用可能な場合)は赤い星で示されています。 要約すると、研究者らは次のような興味深い観察結果を導き出しました。 ゼロショット設定では、M4とmBERTはほとんどのタスクでXLM-Rに匹敵するパフォーマンスを示しましたが、特に難しい質問応答タスクではXLM-Rが前者2つを上回りました。例えば、XQuADタスクではXLM-Rのスコアは76.6で、M4の64.6、mBERTの64.5を上回りました。MLQAタスクとTyDi QAタスクでも同様のパフォーマンスが見られました。 機械翻訳のベースライン手法は、トレーニングデータとテストデータのどちらを翻訳する場合にも優れたパフォーマンスを示しています。例えば、XNLIタスクでは、mBERTはゼロショット転送設定で65.4のスコアを記録しましたが、翻訳されたトレーニングデータを使用すると74.0に向上しました。 少数ショット設定(限定的なテキスト内ラベル付きデータ使用)は、NERのような比較的単純なタスクでは特に優れたパフォーマンスを示しますが、より複雑な質問応答タスクでは効果が限定的です。例えば、少数ショット設定では、mBERTのNERタスクにおけるパフォーマンスは42%向上し、スコアは62.2から88.3に上昇しました。しかし、質問応答タスク(TyDi QA)では、パフォーマンスの向上はわずか25%にとどまり、スコアは59.7から74.5に上昇しました。 最後に、英語と他の言語のすべてのモデルと設定の間には依然として大きなパフォーマンスのギャップがあり、言語間の転送には依然として大きな研究の可能性があることが示されています。
言語間転移分析 深層学習モデルの汎化能力に関するこれまでの観察結果と同様に、mBERTとXLM-Rの比較からもわかるように、事前学習済みデータが多いほどパフォーマンスが向上することがわかります。しかし、この相関関係は構造化予測タスクでは現れません。品詞タグ付け(POS)や固有表現認識(NER)などのタスクでは、現在の深層学習済みモデルは事前学習済みデータを十分に活用できず、これらの文法タスクに転用することができません。 研究者らは、このモデルがラテン語以外の言語に転移しにくいことも発見しました。これは特に品詞タスクで顕著で、mBERTはスペイン語ではゼロショット精度86.9%を達成しましたが、日本語ではわずか49.2%でした。 自然言語推論タスクXNLIにおいて、研究者らは、モデルが英語と他の言語で70%の確率で同じ予測を行ったことを発見しました。半教師あり学習は、他の言語への翻訳後の予測の一貫性を向上させるのに役立つ可能性があります。また、モデルは英語のトレーニングデータに存在しない品詞タグの予測に苦労していることも発見しました。これは、事前トレーニングに使用された大量のラベルなしデータから他の言語の文法を学習することがこれらのモデルにとって困難であることを示しています。 エンティティ命名認識に関しては、モデルの予測精度は英語と最も異なる言語で最も低く、インドネシア語とスワヒリ語ではそれぞれ 58.0 と 66.6 であったのに対し、ポルトガル語とフランス語ではそれぞれ 82.3 と 80.1 であった。
多言語転移学習 英語は世界人口のわずか15%しか話さないにもかかわらず、自然言語処理(NLP)研究において最も広範な研究が行われてきました。研究者たちは、深い文脈表現を構築することで、世界中の他の言語に大幅な技術的進歩をもたらすツールが得られると考えています。GLUEとSuperGLUEが、単一言語モデルベンチマークにおいてBERT、RoBERTa、XLNet、AlBERTに匹敵する優れたモデルの開発を促したように、XTREMEは多言語転移学習における重要なステップとなる可能性があります。
参考: http://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html https://www.toutiao.com/i6815436511492702724/ |