著者 | ヴィシャール・ラージプート 編纂者:岳陽 検索強化生成(RAG)は、外部知識源を統合することで言語モデルを強化する強力な手法として、大きな注目を集めています。しかし、このアプローチには、検索プロセスにおける遅延、文書選択における潜在的なエラー、システムの複雑さの増大といった課題も存在します。 より長いコンテキストを処理できる大規模言語モデル(LLM)の台頭に伴い、リアルタイムの情報検索を回避できるキャッシュ型拡張生成(CAG)技術が登場しました。この技術は、必要なリソースをすべてモデルの拡張コンテキストにプリロードし、関連する実行時パラメータをキャッシュすることで、管理しやすい限られた数の文書や知識を扱う場合に特に効果的です。 早速、この斬新な技術について詳しく見ていきましょう。 この記事では、以下のトピックについて説明します。
01 RAG はコンテキスト処理機能をどのように拡張できますか?RAGはセミパラメトリックシステムであり、パラメトリック部分は大規模な言語モデルで構成され、ノンパラメトリック部分はその他の要素を含みます。これら2つの部分を組み合わせることで、セミパラメトリックシステムが形成されます。LLMでは、すべての情報はモデルの重みまたはパラメータにエンコードされた形式で保存されますが、システムの他の部分ではパラメータを用いてこれらの知識を定義することはありません。 それで、この設計はどのように問題を解決するのでしょうか?
したがって、理論的には、RAG は LLM のより優れたコンテキストを作成する能力を強化し、LLM のパフォーマンスを向上させます。 しかし、このプロセスは本当にそんなに簡単なのでしょうか?答えは「ノー」です。 既存の RAG システムは十分にインテリジェントではなく、比較的単純であるため、多くのカスタム コンテキストを必要とする複雑なタスクを処理できません。 つまり、簡単に言えば、コンテキスト ウィンドウによって LLM に課せられた制限があったからこそ、RAG を開発することができたのです。 02 無限に拡大するコンテキストウィンドウ関連する論文は、「Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention」です。 本論文では、限られたメモリと計算リソースの制約下で、Transformerベースの大規模言語モデル(LLM)を拡張し、無限長の入力を処理できる効率的な手法を提案する。この手法の重要な革新は、Infini-Attentionと呼ばれる新しいアテンション機構である。 Infini-Attentionの中核となるアイデアは、局所的な注意とグローバルな注意を組み合わせることです。具体的には、まず記事全体を複数のセグメントに分割します。1つのセグメントには標準的な注意メカニズムを適用し、前のセグメントのコンテキストを捉えるために線形注意メカニズムを使用します。以下は、この論文の概要です。
03 CAGテクノロジーの利点は何ですか?検索不要のロングコンテキスト パラダイム: 事前にロードされたドキュメントと事前に計算された KV キャッシュを備えたロングコンテキスト LLM を活用することで、検索の遅延、エラー、システムの複雑さを排除する革新的なアプローチが提案されています。 パフォーマンス比較: 実験では、特に管理しやすい知識ベースでは、長いコンテキストの LLM が従来の RAG システムよりも優れていることが示されています。 実用的な洞察: この論文では、知識集約型ワークフローの効率を向上させる実用的な最適化戦略を提案し、特定のアプリケーション シナリオで検索不要の方法の実現可能性を実証的に検証します。 CAG には、従来の RAG システムに比べて次のような大きな利点があります。
04 その他の改善点知識集約型タスクでは、増加した計算リソースは通常、より多くの外部知識を取り込むために使用されます。しかし、この知識が効果的に活用されなければ、単にコンテキストを拡張するだけでは必ずしもパフォーマンスが向上するとは限りません。 2 つの推論拡張戦略: コンテキスト内学習と反復プロンプト。 これらの戦略は、テスト時の計算を拡張するための柔軟性をさらに高めます (たとえば、取得されるドキュメントの数や生成ステップを増やすことによって)。これにより、LLM がコンテキスト情報を取得して利用する能力が向上します。 私たちは2つの重要な質問に答える必要があります。 (1)最適構成を実行する際に推論計算規模を拡大することでRAGのパフォーマンスをどのように向上させることができるか? (2)RAG性能と推論パラメータ間の定量的な関係をモデル化することで、与えられた予算制約の下での最適なテスト時の計算資源割り当てを予測できるか? 最適な推論パラメータ設定下では、RAGの性能はテスト中の計算負荷の増加に対してほぼ線形に増加します。実験観察に基づき、RAGの推論拡張則とそれに対応する計算リソース割り当てモデルを導出しました。これにより、異なるハイパーパラメータ設定下でのシステム性能を予測できます。 詳細については、こちらの論文をご覧ください: https://arxiv.org/pdf/2410.04343 もう 1 つの作業では、よりハードウェア (最適化) 設計の観点から検討します。 研究チームは、CXL 2.0プロトコルをベースとし、水平方向にスケーラブルなニアメモリアクセラレーションアーキテクチャを採用したデバイス、インテリジェントナレッジストア(IKS)を開発しました。IKSは、ホストCPUとニアメモリアクセラレータの間に新たなキャッシュコヒーレンスインターフェースを構築することで、飛躍的なパフォーマンス向上を実現します。 512GBのベクトルデータベースにおいて、IKSはIntel Sapphire Rapids CPUと比較して、最近傍探索を13.4~27.9倍高速に実行します。この探索性能の優位性により、一般的なRAGアプリケーションのエンドツーエンド推論時間は1.7~26.3倍短縮されます。メモリエクステンダーとして、IKSの内部DRAMは他のサーバーアプリケーションで使用するために切り離すことができるため、今日のサーバーで最も高価なリソースの一つであるアイドル状態のDRAMリソースの無駄を効果的に回避できます。 詳細については、こちらをご覧ください:https://arxiv.org/pdf/2412.15246 別の論文では、20種類の主要なオープンソースおよび商用の大規模言語モデル(LLM)を対象に、長いコンテキストが検索拡張生成(RAG)のパフォーマンスに与える影響を体系的に調査しました。研究チームは、3つの独自ドメインデータセットを用いてRAGワークフローを実行し、コンテキスト長(2,000トークンから128,000トークン、最大200万トークンまで拡張可能)を変化させました。その結果、RAGアプリケーションにおける長いコンテキストの利点と限界が明らかになりました。 彼らの研究によると、より多くの文書を取得するとパフォーマンスは向上する一方で、64,000トークンを超える長いコンテキストで安定した精度を維持できるのは、最新世代の最先端LLMのうちごくわずかであることが明らかになりました。また、長いコンテキストのシナリオにおける様々な失敗モードも特定され、今後の研究の方向性が示されました。 詳細については、こちらの論文をご覧ください: https://arxiv.org/pdf/2411.03538 05 CAGフレームワークの動作原理CAGフレームワークは、ロングコンテキストLLMの拡張コンテキスト機能を活用し、リアルタイム検索の必要性を排除します。外部知識ソース(例:文書コレクションD={d1,d2,…})をプリロードし、キーバリュー(KV)キャッシュ(C_KV)をプリコンパイルすることで、従来のRAGシステムの非効率性を克服します。このフレームワークは主に3つのフェーズで動作します。 1. 外部知識のプリロード
2. 推論段階
この手法は検索の遅延を解消し、検索エラーのリスクを最小限に抑えます。P=Concat(D,Q)というキーワードを組み合わせることで、外部知識とクエリの一貫性を確保できます。 3. キャッシュのリセット
06 結論キャッシュ型拡張生成(CAG)は、リアルタイム検索が不可能なシナリオや、極めて低遅延の応答が求められるシナリオにおいて、大きなメリットをもたらします。膨大な外部知識をモデルのコンテキストウィンドウに埋め込むことで、CAGは有益かつコンテキストに関連性のある回答を生成し、従来の検索型拡張生成(RAG)システムにおける検索遅延を回避します。 読んでくれてありがとう! このブログを楽しんで、新しいことを学んでいただければ幸いです。 著者について ヴィシャール・ラージプート 3x🏆AI のトップライター | AI ブック 📓: https://rb.gy/xc8m46 | リンクトイン+: https://www.linkedin.com/in/vishal-rajput-999164122/ 終わり 今週のインタラクティブコンテンツ🍻 ❓大規模モデルのコンテキストウィンドウが拡大し続ける中で、RAGとCAGの技術ロードマップはどのように進化していくとお考えですか?どのようなシナリオにおいてRAGがより適しているのでしょうか? オリジナルリンク: https://medium.com/aiguys/dont-do-rag-it-s-time-for-cag-fb24ff87932b |