HUOXIU

長文脈言語モデルの評価システムの探究

編集者注: AIモデルのコンテキストウィンドウは驚異的な速度で拡大しています。2018年にはわずか512トークンでしたが、現在では200万トークンに達しています。この飛躍的な進歩は単なる数値の変化ではなく、全く新しい応用機会を意味します。弁護士はAIを活用して数千ページに及ぶ法的文書を迅速に分析し、医師は完全な医療記録に基づいてより正確な診断を行い、研究者は数百もの学術論文を同時に処理できるようになります。しかし、疑問は残ります。これらの超長期コンテキストモデルが、これほど膨大な量の情報を真に「理解」していることをどのように保証できるのでしょうか?

著者らは、ロングコンテキストモデルの評価手法を、情報検索能力評価、深層分析能力評価、コンテキスト学習能力評価という3つの側面から詳細に解説する。また、実世界の研究事例に基づき、これらの評価手法の適用シナリオと限界を体系的に示している。

著者 | イェニー・ジュン

編纂者:岳陽

近年、言語モデルのコンテキストウィンドウサイズは指数関数的に増加しています。この図は原著者によって作成されたものです。

01 はじめに

大規模言語モデルのコンテキスト ウィンドウ (つまり、一度に処理できる記事の長さ) は、指数関数的に増加しています。

2018年当時、BERT[1]、T5[2]、GPT-1[3]などの言語モデルは、最大512個の入力トークンしか処理できませんでした。2024年夏までに、この数は200万トークンにまで急増しました(公開されているLLMにおいて)。この変化は私たちにどのような影響を与え、ますます強力になるこれらのモデルをどのように評価すべきでしょうか?

1.1 大きなコンテキスト ウィンドウとは具体的に何を意味しますか?

新しくリリースされたGemini 1.5 Proモデルは、最大200万トークンを受け取ることができます[4]。しかし、200万トークンとは一体何を意味するのでしょうか?

約 4 単語ごとに 3 つのトークンに変換されると仮定すると、200 万トークンでハリー・ポッターとロード・オブ・ザ・リングの小説シリーズ全体をほぼ網羅できます。

このチャートは、ジェミニ1.5の200万トークンのコンテキストウィンドウに『ハリー・ポッター』と『ロード・オブ・ザ・リング』の書籍が何冊収まるかを示しています。このチャートは、2024年3月に公開されたこの素晴らしいインフォグラフィック[5]に一部影響を受けています。このチャートは元の著者によって作成されました。

これらの数値は、公開モデルで利用可能なコンテキストウィンドウを示しています。Gemini 1.5 Proモデルは現在、公開されているコンテキストウィンドウが200万トークンですが、最大1000万トークンまで処理可能です[6]。

あるRedditユーザーが述べたように、これは1,000件の科学論文がジェミニの革新的な研究のための1,000万トークンのコンテキストウィンドウに含まれる可能性があることを意味します。[7]

1.2 大きなコンテキスト ウィンドウがなぜ重要なのか?

コンテキストウィンドウを拡大することの重要性は、LLMを構築する企業同士が競争できるようになるというだけにとどまりません。ロングコンテキストモデルは実社会で幅広い応用が可能です。以下にいくつか例を挙げます。

  • 法的調査: 弁護士は、手動によるレビューに何時間、あるいは何日も費やす代わりに、完全な事件の詳細、判例、規制をモデルに入力して、数秒で包括的な分析を得ることができます。
  • 財務分析: 長年にわたる財務レポート、市場動向、経済指標を AI に入力して、詳細な分析情報を即座に取得します。
  • 医療診断: 医師は、医療検査結果、治療記録、高解像度の医療画像など、患者の医療記録全体を入力して、より正確な診断と個別の治療計画を実現できます。
  • 教育分野では、学生は教科書やコース教材全体をモデルに入力して、知識のポイントや学際的な知識のつながりについてのカスタマイズされた説明を得ることができます。

しかし、これらのユースケースは懸念も引き起こしています。悪用された場合、膨大な量の個人データを処理できる能力は、前例のない監視やプライバシー侵害につながる可能性があります。こうした能力が増大するにつれて、強力な倫理ガイドラインとセキュリティ対策の必要性がますます高まっています。

02 コンテキスト ウィンドウ サイズが拡大し続ける LLM をどのように評価すればよいでしょうか?

非常に長いコンテキストウィンドウを持つモデルが最近のトレンドとなっています。そのため、研究者たちはこれらのモデルの性能を評価するための新たな評価手法の開発に取り組んでいます。これらの評価手法は、長いコンテキストウィンドウの能力と限界をベンチマークし、コンテキストウィンドウを拡張することの利点と欠点を探ることを目的としています。

中心となる考え方は、より長い入力コンテキストを持つモデルは、これまでは困難または不可能であったタスクを実行できるようになるはずだということです。

評価シナリオ

この記事では、研究者が長期コンテキスト モデルを評価するために検討した 3 つのアプローチについて説明します。

  1. 長い文書から情報を抽出する
  2. 長い文書の詳細な分析(推論と要約)を実施します。
  3. 即時のモデルトレーニングのためのコンテキスト学習サポートを提供する

注:上記のリストは網羅的なものではありません。ロングコンテキストモデルのベンチマークを包括的に理解するには、Awesome LLM Long Context Modeling [8]のGithubページをご覧ください。

2.1 長い文書からの情報の抽出

グレッグ・カムラッド氏によって提唱された「干し草の山の中の針」テスト[9][10]は、長文における情報検索の効率性を評価するための一般的な手法です。この手法では、文脈に合わない文(「針」)を異なる長さのテキスト段落(「干し草の山」)にランダムに挿入することで、モデルが様々な深さで情報を検索する能力を検証します。

たとえば、「サンフランシスコで一番楽しいことは、晴れた日にサンドイッチを食べながらドロレス公園に座ることです」という文を、ポール グラハムの記事に埋め込むことができます。

このテストは、ますます複雑化するコンテキスト内で特定の情報を見つける LLM の能力を測定することを目的としています。

グレッグ・カムラッド[9]は、LLMの深層情報検索能力をテストするために、オリジナルの「干し草の山の中の針」チャートを設計しました。この矛盾した文(「針」)を、異なる長さのテキスト断片(「海」)の異なる階層に配置することで、異なるLLMがこの情報を見つける際のパフォーマンスを評価できます。

干し草の山の中の針」のさまざまなバリエーション

研究者たちは、情報検索のさまざまな側面を調査するために、いくつかの異なるテストを設計しました。

  • 複数の「針」テスト:長い文書に複数の「針」文を散りばめる(Langchain[11]によって提案され、NeedleBench[12]でテストされた)。
  • マルチモーダル検索: 説明に基づいて、無関係な画像のセットの中から対象の画像を検索します。
  • オーディオサーチ:5日間のオーディオ信号から短いオーディオクリップを特定する(このテストはGemini 1.5の技術レポート[13]で発表された)。このテストでは、「秘密のキーワードは針です」というフレーズを含むオーディオクリップが、約5日間(107時間)にわたるオーディオ信号の中に隠されていました。
  • ビデオ検索:10.5時間のビデオ(Gemini 1.5の技術レポート[13]にも記載されている)から特定のテキストを含むフレームを検索する。このテストでは、「秘密の言葉は針です」というテキストを表示するフレームが、7つのAlphaGoドキュメンタリー動画から構成されるビデオに埋め込まれていた。

Gemini 1.5 の論文では、ビデオベースの「干し草の山の中の針」が紹介されています。これは、「Gemini 1.5: 何百万ものコンテキスト トークンにわたるマルチモーダル理解の実現」(110 ページ) からの画像です。

「干し草の山の中の針」法の限界と影響

「干し草の山の中の針」法は広く使用されていますが、いくつかの制限もあります。

  • まず、これはシミュレートされたタスクであり、実際のアプリケーション シナリオと一致しない可能性があります。
  • 第二に、論理的推論や理解力は考慮されず、情報を見つける能力のみが評価されます。
  • さらに、コンテキストが拡大するにつれて、「海」のサイズと「針」の位置のすべての可能な組み合わせを評価するコストが増加します。

これらの制限にもかかわらず、このテストはロングコンテキストモデルの重要な機能、すなわち膨大なデータから迅速に情報を検索・抽出する能力を浮き彫りにしています。この機能は極めて重要であり、研究効率を高めるだけでなく、前例のないレベルのデータ分析を可能にし、モニタリングにも活用できる可能性があります。

この情報検索方法は、外部リソースから情報を抽出するのではなく、一貫性のある大規模なコンテキスト内で動作する点で、検索強化生成 (RAG) とは異なる点に注目すべきです。

2.2 長い文書の詳細な分析(推論と要約)を実施します。

「干し草の山の中の針」テストは主に情報検索能力に焦点を当てていますが、大規模言語モデルが長文コンテンツを処理する際に、推論、解釈、そして情報統合を行う能力を評価するための評価方法は他にも存在します。これらの評価方法は、モデルが単にデータの特定の場所を見つけるだけでなく、より高度な推論を実行できるかどうかを検証することを目的としています。

このカテゴリに該当する評価方法は次のとおりです。

文学Q&A課題

書籍は長文文書の典型的な例です。NOVELQA[14]のようなベンチマークは、文書長が最大20万トークンに達する文学小説を処理するモデルの能力を評価するために用いられます。このテストには、パブリックドメインの書籍と著作権で保護された作品の両方を網羅する、人間によって書かれた88冊の英語小説に関する質問が含まれています。NoCha[15]などの他のデータセットでも同様の評価方法が採用されています。


図:この図は、記事「NovelQA:20万トークンを超える文書に対する質問回答のベンチマーク」[14]から抜粋したNovelQAデータセット[14]の2つの質問例を示しています。

隠された情報を含む長い記事における論理的推論

FlenQA[16]は、関連情報をより長く無関係な情報に埋め込むことで、長さの異なる複数のコンテキストバージョンを生成します。このアプローチは、コンテキスト長が長くなるにつれて大規模言語モデルの処理能力が徐々に低下する仕組みを理解するのに役立ちます。

FlanQAのタスク例では、関連情報(濃い赤で表示)が多数の無関係な情報の中に散在しています。この図は論文「同じタスク、より多くのトークン:入力長が大規模言語モデルの推論性能に与える影響」[16]から引用したものです。

特定の分野における論理的推論

  • 医療分野では、LongHealth[17]は20の架空の症例(それぞれ5000~7000語)を使用して、モデルの医療推論能力を評価しました。
  • 金融分野では、DocFinQA[18]が最大150ページ(10万トークン以上を含む)の金融文書を処理させることでモデルに挑戦しています。

要約と抽象化タスク

大規模言語モデルでは、長い文書の内容を効果的に圧縮する能力が不可欠です。これにより、ユーザーは文書全体を読まなくても、大量のテキストから重要な情報を素早く把握できるようになります。これは、専門家が膨大な量のデータを簡潔なレポートに凝縮する必要がある研究、ビジネス分析、法務実務において特に重要です。

しかし、要約の質を評価するのは複雑な作業です。優れた要約には、文章全体を深く理解するだけでなく、重要な情報を正確に特定し、統合する能力も必要です。質の高い要約とは、多くの場合、個人の主観的な判断と具体的な状況によって決まります。

現在、要約の質の評価は、主にモデルの出力と手動で作成された要約との比較に依存しています。この方法は完璧ではなく、すべての妥当な要約を網羅できない可能性があります。また、異なる単語が使われているものの正確な意味を持つ要約を見落とす可能性もあります。

これらの課題に対処するため、LongBench[19]や∞Bench[20]といったベンチマークが登場しました。LongBenchは、政府報告書、議事録、ニュース記事など、最大15,000語までの文書の要約タスクをカバーしています。一方、∞Benchはさらに要約タスクの範囲を広げ、最大100,000トークンまでの文書も対象としています。これらのベンチマークは価値がありますが、高品質な要約のニュアンスをより正確に評価するための、より効果的な評価手法の探求は依然として続いています。

このトピックをより深く理解するには、「長い文書の要約に関する実証的調査:データセット、モデル、およびメトリクス」[21]の記事を参照してください。

2.3 インスタントモデルトレーニングのためのコンテキスト学習サポートの提供

ロングコンテキストモデルの最も優れた応用例の一つは、強化されたコンテキスト学習能力(ICL)です。ICLにより、モデルはプロンプト語の例から新しいタスクを即座に学習できます。コンテキストウィンドウが拡大されたことで、テキスト要約のような複雑で長いタスクであっても、数百、あるいは数千ものトレーニングサンプルを組み込むことが可能になりました。

この技術はゲームチェンジャーです。開発者はドメイン固有のモデルの微調整を省略し、ICLを介してモデルを新しいタスクに直接適応させることができます。

多ショットICL

DeepMindのマルチサンプルICL[22]に関する研究では、プロンプトに含まれる例の数が増えると、様々なタスクにおけるモデルのパフォーマンスが大幅に向上することが示されています。数百または数千の例に拡張することで、モデルは事前学習におけるバイアスを克服し、より複雑な問題に対応できるようになります。

プロンプト語により多くの例(つまり「ショット」)を追加することで、同じLLMモデルでも様々なタスクでより良いパフォーマンスを示すことができます。例えば、感情分析タスクにおいて例の数を32から2048に増やすと、モデルのパフォーマンスは18.2%向上しました。この数値はMany-Shot In-Context Learning [22]から引用したものです。

この考え方はパフォーマンスの向上に留まりません。アントロピック社の「Many-shot Jailbreaking」[23]プロジェクトの研究では、少数のサンプルではモデルのセキュリティ防御を突破するのに十分ではないものの、数百のサンプルでは十分であることが示されました。これは、このアプローチの威力と潜在的なリスクの両方を示す発見です。

例えば、LLMが有害なコンテンツを生成するには数個のサンプルでは不十分ですが、サンプル数が数十、あるいは数百に増加すると、モデルは「安全柵」を無視できることがわかります。この図は、Many-Shot Jailbreaking [23] から引用したものです。

リソースの少ない言語を翻訳する

長文脈モデルは、リソースの少ない言語の翻訳において顕著な価値を示しています。Gemini 1.5の技術レポート[13]では、カラマン語が例として使用されています。この言語の話者は200人未満で、ネットワークリソースは非常に限られています。500ページの文法データ、2,000語のバイリンガル語彙、400の対照文(合計25万トークン)をモデルに入力することで、モデルはカラマン語の翻訳だけでなく、音声書き起こしも実行できます。

この手法は他のリソースの少ない言語にも適用可能であり、用例数の増加に伴い翻訳性能も向上します。これは、絶滅危惧言語の保護と利用にとって、間違いなく有望な新たな展開です。

03 議論

より長いコンテキストウィンドウの追求は、言語モデル分野において熾烈な競争を巻き起こしており、コンテキストウィンドウのサイズは驚くべき速度で拡大しています。この拡大により、これらのモデルの長所と短所をより正確に把握するための新たな評価手法の開発が求められています。

ロングコンテキストモデルの評価ベンチマークは数多く登場しているが(SCROLLS[24]、LongBench[19]、∞BENCH[20]など)、まだ多くの疑問が残っている。

  • スケールのトレードオフ: コンテキストの長さが増加すると、安全性、バイアス、命令実行の観点から見たモデルのパフォーマンスはどのように変動しますか?
  • 多言語パフォーマンス:ほとんどの評価ベンチマークは英語に焦点を当てています(CLongEval[25]などの中国語の評価も含むベンチマークを除く)。では、文脈が増えるにつれて、英語以外の言語のパフォーマンスは英語とどのように異なるのでしょうか?
  • パフォーマンスの低下: モデルは、より豊富なコンテキストを処理する際に、プログラミング スキルや創造性などの特定の機能を犠牲にしますか?
  • 現実世界への影響: モデルが書籍全体、完全な個人的経験、さらには希少言語からの詳細なデータを処理できるようになると、どのような倫理的および実際的な課題に直面するでしょうか。

大規模言語モデル (LLM) のコンテキスト ウィンドウが拡大し続けるにつれて、LLM で何ができるのかだけでなく、その基本的な特性がどのように変化するかを理解する必要が生じます。

より大きなコンテキスト ウィンドウを備えたモデルを開発するための競争は、今後も激化し続けると思われます。

読んでくれてありがとう!

このブログを楽しんで、新しいことを学んでいただければ幸いです。

著者について

イェニー・ジュン

機械学習エンジニア兼AI研究者として、クリエイティブなプロジェクトを通して世界への好奇心を探求しています。

終わり

今週のインタラクティブコンテンツ🍻

#TechnicalDiscussion# ロングコンテキストモデルを評価する上で最も重要な指標は何だと思いますか?その理由も教えてください。

🔗記事内のリンク🔗

[1]https://arxiv.org/abs/1810.04805

[2]https://arxiv.org/abs/1910.10683

[3]https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

[4]https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/

[5]https://www.reddit.com/r/OpenAI/comments/1buz5ju/geminis_context_window_is_much_larger_than_anyone/

[6]https://www.notion.so/Long-Context-Eval-Survey-fe3c69173f2e4eb0b5cd4c973f712626?pvs=21

[7]https://www.reddit.com/r/singularity/comments/1ausp2k/geminis_nearly_perfect_10_million_context_length/

[8]https://github.com/Xnhyacinth/Awesome-LLM-Long-Context-Modeling?tab=readme-ov-file#11-ベンチマークと評価

[9]https://twitter.com/GregKamradt

[10]https://github.com/gkamradt/LLMTest_NeedleInAHaystack

[11]https://blog.langchain.dev/multi-needle-in-a-haystack/

[12]https://arxiv.org/abs/2407.11963

[13]https://arxiv.org/abs/2403.05530

[14]https://arxiv.org/pdf/2403.12766

[15]https://arxiv.org/abs/2406.16264

[16]https://arxiv.org/pdf/2402.14848v1

[17]https://arxiv.org/pdf/2401.14490

[18]https://arxiv.org/pdf/2401.06915

[19]https://arxiv.org/pdf/2308.14508

[20]https://arxiv.org/pdf/2402.13718

[21]https://dl.acm.org/doi/10.1145/3545176

[22]https://arxiv.org/pdf/2404.11018

[23]https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf

[24]https://arxiv.org/abs/2201.03533

[25]https://arxiv.org/abs/2403.03514

オリジナルリンク:

https://www.artfish.ai/p/long-context-llms