著者 | イェニー・ジュン 編纂者:岳陽 近年、言語モデルのコンテキストウィンドウサイズは指数関数的に増加しています。この図は原著者によって作成されたものです。 01 はじめに大規模言語モデルのコンテキスト ウィンドウ (つまり、一度に処理できる記事の長さ) は、指数関数的に増加しています。 2018年当時、BERT[1]、T5[2]、GPT-1[3]などの言語モデルは、最大512個の入力トークンしか処理できませんでした。2024年夏までに、この数は200万トークンにまで急増しました(公開されているLLMにおいて)。この変化は私たちにどのような影響を与え、ますます強力になるこれらのモデルをどのように評価すべきでしょうか? 1.1 大きなコンテキスト ウィンドウとは具体的に何を意味しますか?新しくリリースされたGemini 1.5 Proモデルは、最大200万トークンを受け取ることができます[4]。しかし、200万トークンとは一体何を意味するのでしょうか? 約 4 単語ごとに 3 つのトークンに変換されると仮定すると、200 万トークンでハリー・ポッターとロード・オブ・ザ・リングの小説シリーズ全体をほぼ網羅できます。 このチャートは、ジェミニ1.5の200万トークンのコンテキストウィンドウに『ハリー・ポッター』と『ロード・オブ・ザ・リング』の書籍が何冊収まるかを示しています。このチャートは、2024年3月に公開されたこの素晴らしいインフォグラフィック[5]に一部影響を受けています。このチャートは元の著者によって作成されました。 これらの数値は、公開モデルで利用可能なコンテキストウィンドウを示しています。Gemini 1.5 Proモデルは現在、公開されているコンテキストウィンドウが200万トークンですが、最大1000万トークンまで処理可能です[6]。 あるRedditユーザーが述べたように、これは1,000件の科学論文がジェミニの革新的な研究のための1,000万トークンのコンテキストウィンドウに含まれる可能性があることを意味します。[7] 1.2 大きなコンテキスト ウィンドウがなぜ重要なのか?コンテキストウィンドウを拡大することの重要性は、LLMを構築する企業同士が競争できるようになるというだけにとどまりません。ロングコンテキストモデルは実社会で幅広い応用が可能です。以下にいくつか例を挙げます。
しかし、これらのユースケースは懸念も引き起こしています。悪用された場合、膨大な量の個人データを処理できる能力は、前例のない監視やプライバシー侵害につながる可能性があります。こうした能力が増大するにつれて、強力な倫理ガイドラインとセキュリティ対策の必要性がますます高まっています。 02 コンテキスト ウィンドウ サイズが拡大し続ける LLM をどのように評価すればよいでしょうか?非常に長いコンテキストウィンドウを持つモデルが最近のトレンドとなっています。そのため、研究者たちはこれらのモデルの性能を評価するための新たな評価手法の開発に取り組んでいます。これらの評価手法は、長いコンテキストウィンドウの能力と限界をベンチマークし、コンテキストウィンドウを拡張することの利点と欠点を探ることを目的としています。 中心となる考え方は、より長い入力コンテキストを持つモデルは、これまでは困難または不可能であったタスクを実行できるようになるはずだということです。 評価シナリオ この記事では、研究者が長期コンテキスト モデルを評価するために検討した 3 つのアプローチについて説明します。
注:上記のリストは網羅的なものではありません。ロングコンテキストモデルのベンチマークを包括的に理解するには、Awesome LLM Long Context Modeling [8]のGithubページをご覧ください。 2.1 長い文書からの情報の抽出グレッグ・カムラッド氏によって提唱された「干し草の山の中の針」テスト[9][10]は、長文における情報検索の効率性を評価するための一般的な手法です。この手法では、文脈に合わない文(「針」)を異なる長さのテキスト段落(「干し草の山」)にランダムに挿入することで、モデルが様々な深さで情報を検索する能力を検証します。 たとえば、「サンフランシスコで一番楽しいことは、晴れた日にサンドイッチを食べながらドロレス公園に座ることです」という文を、ポール グラハムの記事に埋め込むことができます。 このテストは、ますます複雑化するコンテキスト内で特定の情報を見つける LLM の能力を測定することを目的としています。 グレッグ・カムラッド[9]は、LLMの深層情報検索能力をテストするために、オリジナルの「干し草の山の中の針」チャートを設計しました。この矛盾した文(「針」)を、異なる長さのテキスト断片(「海」)の異なる階層に配置することで、異なるLLMがこの情報を見つける際のパフォーマンスを評価できます。 「干し草の山の中の針」のさまざまなバリエーション 研究者たちは、情報検索のさまざまな側面を調査するために、いくつかの異なるテストを設計しました。
Gemini 1.5 の論文では、ビデオベースの「干し草の山の中の針」が紹介されています。これは、「Gemini 1.5: 何百万ものコンテキスト トークンにわたるマルチモーダル理解の実現」(110 ページ) からの画像です。 「干し草の山の中の針」法の限界と影響 「干し草の山の中の針」法は広く使用されていますが、いくつかの制限もあります。
これらの制限にもかかわらず、このテストはロングコンテキストモデルの重要な機能、すなわち膨大なデータから迅速に情報を検索・抽出する能力を浮き彫りにしています。この機能は極めて重要であり、研究効率を高めるだけでなく、前例のないレベルのデータ分析を可能にし、モニタリングにも活用できる可能性があります。 この情報検索方法は、外部リソースから情報を抽出するのではなく、一貫性のある大規模なコンテキスト内で動作する点で、検索強化生成 (RAG) とは異なる点に注目すべきです。 2.2 長い文書の詳細な分析(推論と要約)を実施します。「干し草の山の中の針」テストは主に情報検索能力に焦点を当てていますが、大規模言語モデルが長文コンテンツを処理する際に、推論、解釈、そして情報統合を行う能力を評価するための評価方法は他にも存在します。これらの評価方法は、モデルが単にデータの特定の場所を見つけるだけでなく、より高度な推論を実行できるかどうかを検証することを目的としています。 このカテゴリに該当する評価方法は次のとおりです。 文学Q&A課題 書籍は長文文書の典型的な例です。NOVELQA[14]のようなベンチマークは、文書長が最大20万トークンに達する文学小説を処理するモデルの能力を評価するために用いられます。このテストには、パブリックドメインの書籍と著作権で保護された作品の両方を網羅する、人間によって書かれた88冊の英語小説に関する質問が含まれています。NoCha[15]などの他のデータセットでも同様の評価方法が採用されています。
隠された情報を含む長い記事における論理的推論 FlenQA[16]は、関連情報をより長く無関係な情報に埋め込むことで、長さの異なる複数のコンテキストバージョンを生成します。このアプローチは、コンテキスト長が長くなるにつれて大規模言語モデルの処理能力が徐々に低下する仕組みを理解するのに役立ちます。 FlanQAのタスク例では、関連情報(濃い赤で表示)が多数の無関係な情報の中に散在しています。この図は論文「同じタスク、より多くのトークン:入力長が大規模言語モデルの推論性能に与える影響」[16]から引用したものです。 特定の分野における論理的推論
要約と抽象化タスク 大規模言語モデルでは、長い文書の内容を効果的に圧縮する能力が不可欠です。これにより、ユーザーは文書全体を読まなくても、大量のテキストから重要な情報を素早く把握できるようになります。これは、専門家が膨大な量のデータを簡潔なレポートに凝縮する必要がある研究、ビジネス分析、法務実務において特に重要です。 しかし、要約の質を評価するのは複雑な作業です。優れた要約には、文章全体を深く理解するだけでなく、重要な情報を正確に特定し、統合する能力も必要です。質の高い要約とは、多くの場合、個人の主観的な判断と具体的な状況によって決まります。 現在、要約の質の評価は、主にモデルの出力と手動で作成された要約との比較に依存しています。この方法は完璧ではなく、すべての妥当な要約を網羅できない可能性があります。また、異なる単語が使われているものの正確な意味を持つ要約を見落とす可能性もあります。 これらの課題に対処するため、LongBench[19]や∞Bench[20]といったベンチマークが登場しました。LongBenchは、政府報告書、議事録、ニュース記事など、最大15,000語までの文書の要約タスクをカバーしています。一方、∞Benchはさらに要約タスクの範囲を広げ、最大100,000トークンまでの文書も対象としています。これらのベンチマークは価値がありますが、高品質な要約のニュアンスをより正確に評価するための、より効果的な評価手法の探求は依然として続いています。 このトピックをより深く理解するには、「長い文書の要約に関する実証的調査:データセット、モデル、およびメトリクス」[21]の記事を参照してください。 2.3 インスタントモデルトレーニングのためのコンテキスト学習サポートの提供ロングコンテキストモデルの最も優れた応用例の一つは、強化されたコンテキスト学習能力(ICL)です。ICLにより、モデルはプロンプト語の例から新しいタスクを即座に学習できます。コンテキストウィンドウが拡大されたことで、テキスト要約のような複雑で長いタスクであっても、数百、あるいは数千ものトレーニングサンプルを組み込むことが可能になりました。 この技術はゲームチェンジャーです。開発者はドメイン固有のモデルの微調整を省略し、ICLを介してモデルを新しいタスクに直接適応させることができます。 多ショットICL DeepMindのマルチサンプルICL[22]に関する研究では、プロンプトに含まれる例の数が増えると、様々なタスクにおけるモデルのパフォーマンスが大幅に向上することが示されています。数百または数千の例に拡張することで、モデルは事前学習におけるバイアスを克服し、より複雑な問題に対応できるようになります。 プロンプト語により多くの例(つまり「ショット」)を追加することで、同じLLMモデルでも様々なタスクでより良いパフォーマンスを示すことができます。例えば、感情分析タスクにおいて例の数を32から2048に増やすと、モデルのパフォーマンスは18.2%向上しました。この数値はMany-Shot In-Context Learning [22]から引用したものです。 この考え方はパフォーマンスの向上に留まりません。アントロピック社の「Many-shot Jailbreaking」[23]プロジェクトの研究では、少数のサンプルではモデルのセキュリティ防御を突破するのに十分ではないものの、数百のサンプルでは十分であることが示されました。これは、このアプローチの威力と潜在的なリスクの両方を示す発見です。 例えば、LLMが有害なコンテンツを生成するには数個のサンプルでは不十分ですが、サンプル数が数十、あるいは数百に増加すると、モデルは「安全柵」を無視できることがわかります。この図は、Many-Shot Jailbreaking [23] から引用したものです。 リソースの少ない言語を翻訳する 長文脈モデルは、リソースの少ない言語の翻訳において顕著な価値を示しています。Gemini 1.5の技術レポート[13]では、カラマン語が例として使用されています。この言語の話者は200人未満で、ネットワークリソースは非常に限られています。500ページの文法データ、2,000語のバイリンガル語彙、400の対照文(合計25万トークン)をモデルに入力することで、モデルはカラマン語の翻訳だけでなく、音声書き起こしも実行できます。 この手法は他のリソースの少ない言語にも適用可能であり、用例数の増加に伴い翻訳性能も向上します。これは、絶滅危惧言語の保護と利用にとって、間違いなく有望な新たな展開です。 03 議論より長いコンテキストウィンドウの追求は、言語モデル分野において熾烈な競争を巻き起こしており、コンテキストウィンドウのサイズは驚くべき速度で拡大しています。この拡大により、これらのモデルの長所と短所をより正確に把握するための新たな評価手法の開発が求められています。 ロングコンテキストモデルの評価ベンチマークは数多く登場しているが(SCROLLS[24]、LongBench[19]、∞BENCH[20]など)、まだ多くの疑問が残っている。
大規模言語モデル (LLM) のコンテキスト ウィンドウが拡大し続けるにつれて、LLM で何ができるのかだけでなく、その基本的な特性がどのように変化するかを理解する必要が生じます。 より大きなコンテキスト ウィンドウを備えたモデルを開発するための競争は、今後も激化し続けると思われます。 読んでくれてありがとう! このブログを楽しんで、新しいことを学んでいただければ幸いです。 著者について イェニー・ジュン 機械学習エンジニア兼AI研究者として、クリエイティブなプロジェクトを通して世界への好奇心を探求しています。 終わり 今週のインタラクティブコンテンツ🍻 ❓ #TechnicalDiscussion# ロングコンテキストモデルを評価する上で最も重要な指標は何だと思いますか?その理由も教えてください。 🔗記事内のリンク🔗 [1]https://arxiv.org/abs/1810.04805 [2]https://arxiv.org/abs/1910.10683 [3]https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf [4]https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/ [5]https://www.reddit.com/r/OpenAI/comments/1buz5ju/geminis_context_window_is_much_larger_than_anyone/ [6]https://www.notion.so/Long-Context-Eval-Survey-fe3c69173f2e4eb0b5cd4c973f712626?pvs=21 [7]https://www.reddit.com/r/singularity/comments/1ausp2k/geminis_nearly_perfect_10_million_context_length/ [8]https://github.com/Xnhyacinth/Awesome-LLM-Long-Context-Modeling?tab=readme-ov-file#11-ベンチマークと評価 [9]https://twitter.com/GregKamradt [10]https://github.com/gkamradt/LLMTest_NeedleInAHaystack [11]https://blog.langchain.dev/multi-needle-in-a-haystack/ [12]https://arxiv.org/abs/2407.11963 [13]https://arxiv.org/abs/2403.05530 [14]https://arxiv.org/pdf/2403.12766 [15]https://arxiv.org/abs/2406.16264 [16]https://arxiv.org/pdf/2402.14848v1 [17]https://arxiv.org/pdf/2401.14490 [18]https://arxiv.org/pdf/2401.06915 [19]https://arxiv.org/pdf/2308.14508 [20]https://arxiv.org/pdf/2402.13718 [21]https://dl.acm.org/doi/10.1145/3545176 [22]https://arxiv.org/pdf/2404.11018 [23]https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf [24]https://arxiv.org/abs/2201.03533 [25]https://arxiv.org/abs/2403.03514 オリジナルリンク: https://www.artfish.ai/p/long-context-llms |
01 はじめに1.1 大きなコンテキスト ウィンドウとは具体的に何を意味しますか?1.2 大きなコンテキスト ウィンドウがなぜ重要なのか?02 コンテキスト ウィンドウ サイズが拡大し続ける LLM をどのように評価すればよいでしょうか?2.1 長い文書からの情報の抽出2.2 長い文書の詳細な分析(推論と要約)を実施します。2.3 インスタントモデルトレーニングのためのコンテキスト学習サポートの提供03 議論 |