|
大規模モデル技術の波の中で、検索拡張生成( RAG)技術は、大規模言語モデル(LLM)の生成能力と情報検索システムを組み合わせ、大規模モデルの「幻想」を解決し、企業が蓄積した専門知識を効率的に活用してインテリジェントな生産性を向上させる重要なソリューションとなっています。 しかし、エンタープライズレベルのRAGアプリケーションの開発には、知識のベクトル化、検索の最適化、モデルのチューニングなど、複数の段階が必要であり、効率的かつ正確な知識ベースの構築は容易ではありません。特に膨大な量のデータを扱う場合、LLMは重要な情報を正確に取得・想起することが困難になることが多く、入力品質の低さは生成される結果の精度に直接影響を及ぼします。したがって、RAGシステムの生産性を最大限に引き出すには、複数の段階にわたって一連の技術的課題に対処する必要があります。 本稿では、 RAG システムのパフォーマンスを向上させるための重要な技術的アプローチを、ドキュメント解析、データのベクトル化、情報検索という3つの主要な側面から解説します。エンタープライズ向け大規模モデル開発プラットフォームであるMetaBrain Enterprise Intelligence EPAIを用いた実践的なテストにより、これらの側面における技術的最適化によって、エンタープライズレベルのRAG アプリケーションに正確で信頼性の高い技術サポートを提供できることが実証され、企業の休眠データの有効活用とビジネスイノベーションの推進を支援します。 I. RAG システム構築における問題点: 企業データの価値を引き出すのはなぜ難しいのでしょうか?検索拡張生成(RAG)は、大規模モデル応用における重要な方向性です。本質的には、検索と生成を組み合わせた技術であり、 以下の2つのステップを通じて拡張生成を実現します。 l関連情報を取得する:ユーザーのクエリに基づいて、ナレッジベースから関連するドキュメントを抽出します。 コンテキスト生成:取得した情報をコンテキストとして使用して、ユーザーにとって一貫性があり有益な回答を生成します。 RAGは、従来の検索ベースの質問応答システムと自然言語生成技術を巧みに統合します。このアプローチは、生成モデル自体の柔軟性を維持しながら、ドメイン知識のカバレッジと回答の精度を効果的に向上させ、大規模モデルの錯覚、情報更新のタイミングの遅れ、専門分野やプライベート分野における知識不足といった問題を大幅に軽減します。 しかし、効率的なRAGシステムを構築し、企業の生産プロセスに統合して効果的に機能させ、企業環境内で価値を生み出すことは、決して容易ではありません。第一に、企業が蓄積する専門知識は、通常、散在し複雑であるため、これらの知識を高品質の知識ベースに正確に統合することは、間違いなく困難な課題です。第二に、膨大な量の非構造化データを扱うRAGシステムでは、出力される回答の正確性と関連性を確保するために、綿密な検索最適化とモデルチューニングが必要です。さらに、企業の知識は動的であるため、RAGシステムは常に変化する知識環境に適応するための柔軟な更新メカニズムを備えている必要があります。 これらの要因が組み合わさって、 RAG システムの構築に対する参入障壁が高くなり、次のような開発上の課題が生じます。 1. データの品質: ナレッジ ベース内のエラーや不完全な情報は、回答の正確性と信頼性に直接影響するため、データの高品質と包括性を保証することが不可欠です。 2. 検索効率: 検索結果の関連性と量のバランスを取り、重複した情報を避けながら正確なマッチングを確保し、検索効率を向上させる方法。 3. 生成の正確性: 生成されたコンテンツにおける「錯覚」の問題を回避し、生成された情報が真実かつ信頼できるものであり、虚偽または誤ったコンテンツが含まれていないことを確認します。 4. スケーラビリティ: 多数の同時ユーザーに直面した場合でも、システムが安定して実行され、高性能なサービスを継続的に提供できるようにする方法。 5. セキュリティとコンプライアンス: 特に機密データが関係する場合は、データのセキュリティを確保するために厳格なセキュリティ対策を講じるとともに、関連する法律や規制を遵守してコンプライアンスを確保する必要があります。 II. RAG知識ベース構築の精度を決定する3つの重要な側面(i) 文書解析の問題を解決し、ソースからの正確なデータ入力を実現します。 文書解析はRAGシステムの前処理の最初のステップであり、その精度は知識ベースコンテンツの品質と有効性に直接影響します。 文書解析に問題がある場合、知識ベースには大量の不正確な情報が含まれることになり、後続の検索および生成プロセスに直接影響を及ぼし、RAGシステム全体のパフォーマンスの低下につながります。 一般的なドキュメント解析の問題
業界最高のソリューションは、常に視覚情報とテキスト解析技術の組み合わせの上に構築されています。 様々な種類の文書を深く理解し、 情報抽出と構造化処理を最適化することで、テキスト、表、画像、数式など、様々な種類の情報を正確に抽出できます。処理フロー全体は、以下のステップに簡略化できます。文書から画像へ-> レイアウト分析 -> 表認識 -> テキスト認識 -> 段落結合 -> 後処理。次に、これらのコアステップをそれぞれ詳細に分析します。 1. レイアウト分析 レイアウト分析と検出は、 文書解析における重要な第一歩であり、ページ上の異なる種類の要素とそれらに対応する領域を区別することを目的としています。 既存のオープンソースのレイアウト検出モデルは、一般的な文書(1列、シンプルなテキストと画像のレイアウト、印刷されていないバージョンなど)に対しては十分な性能を発揮しますが、ビジネス分析のブリーフィング、教科書、コピーなど、多様な文書を扱う際には効果を発揮しません。 最先端のオープンソースモデルでさえ、検出精度の基準を満たせない場合があります。したがって、多様なレイアウト検出トレーニングセットを構築することで、この問題に対処する必要があります。
2. 表認識 [表認識] 表は構造化データを提示する効果的な手段ですが、視覚的な表画像から表データを抽出するのは困難です。TSR (表構造認識)モデルは、表情報を認識、分析、抽出するために特別にトレーニングされたモデルです。 表からデータを自動的に抽出し、構造化データ形式に変換することで、 さまざまなサイズや種類の表認識タスクに適応できます。
3. 数式の検出と認識 【数式検出と認識】数式(特にインライン数式)は視覚的にテキストと区別しにくいため、事前に数式を検出しないと、後続のテキスト抽出時に文字化けが発生し、文書全体の精度に影響を与える可能性があります。そのため、文書解析プロセス全体でMFD ( 数式検出)モデルとMFR ( 数式認識)モデルの活用を検討し、 大規模データを用いた学習と最適化により、様々な種類の数式検出と認識の精度を向上させる必要があります。
4. OCR認識 【テキスト領域認識】文書内の特殊領域(表、数式、画像など)を除外した後、OCRモデルを用いてテキスト認識を行います。ページ全体のOCR処理によるテキスト順序の誤りを回避するため、レイアウト解析によって検出されたテキスト領域(タイトル、段落)に基づいて情報認識を行う必要があります。これにより、テキスト認識の精度と正しい読み順が確保され、コピーされた資料、複雑なページ構造、回転したフォントなどのテキストコンテンツを正確に認識・抽出できます。
5. 文書コンテンツの後処理 1) 部分的な重なり: テキスト ボックスが部分的に重なる場合は、垂直方向と水平方向の縮小を使用して相互に重なり合うことを回避し、最終的な位置と内容が影響を受けないようにすることで、後続の並べ替えを容易にします。テキストと表/画像が部分的に重なる場合は、テキストの整合性を確保するために、表と画像は一時的に無視されます。 2) 読み順に基づくセグメンテーションアルゴリズム: ネストされた、または部分的に重なり合うバウンディングボックスを処理した後、 「 上から下、左から右」という人間の読み順に基づくセグメンテーションアルゴリズムにより、ページ全体を複数の領域に分割します。 各領域には複数のバウンディングボックスが含まれ、各領域には最大1つの列が含まれます。これにより、テキストは自然な読み順で行ごとに読み上げられます。次に、セグメント化されたグループは位置関係に従って並べ替えられ、PDF内の各要素の読み順が決定されます。 (ii)最高の知識検索性能を提供する最先端の埋め込みモデル RAG システムのセットアップでは、ドキュメントの解析が完了した後、解析されたコンテンツを埋め込みモデルを通じて機械が理解できるベクター形式に変換し、後続の検索と処理をサポートする必要があります。 埋め込みモデルは、単語や文を数値ベクトルに変換する技術です。高次元の離散的な入力データ(テキスト、画像、音声など)を低次元の連続ベクトル表現にマッピングすることで、データ内の意味的および特徴的な関係性を効果的に捉えます。これらのベクトルは、単語やフレーズ間の複雑な関係性を明らかにするだけでなく、深い意味情報も捉えるため、コンピュータは単語の類似性の比較や文の意味分析といった数学的演算を実行できます。 埋め込みモデルはRAGプロセスにおいて重要な役割を果たします。埋め込みモデルは、既存の企業知識や検索質問のベクトル化を含む、検索および比較プロセス全体に適用されます。モデルの精度は、ドキュメントベースの検索結果の精度と量、そして大規模モデルによって生成されるコンテンツと推論のパフォーマンスに直接影響します。 埋め込みモデルは、RAG プロセスの複数の段階で使用されます。 埋め込みモデルを最適化することで、 情報検索の精度、大規模データの処理効率、意味的曖昧性の排除、計算コストの削減、長い文書の処理能力、モデルの堅牢性の向上など、いくつかの面で RAG プロセスを大幅に改善することができ、RAG プロセスの全体的なパフォーマンスとアプリケーション効果が最大化されます。
(III)正確な情報検索を実現するためのハイブリッド検索・再ランキング技術 RAGシステムでは、ベクトル知識ベースが構築されると、ユーザーが知識ベースを選択して検索質問を送信すると、システムは直ちに知識検索フェーズに移行します。ユーザーが質問を送信すると、システムは回答を得るために質問を直接大規模モデルに送信するのではなく、まず知識ベース内でベクトル検索を実行し、意味的類似性マッチングを通じて関連コンテンツを照会します。次に、ユーザーの質問と見つかった関連知識を大規模モデルに提供します。したがって、検索フェーズはRAGにおいて非常に重要な役割を果たし、生成プロセスの品質、効率、および使いやすさを直接決定します。 ベクトル検索は、複雑なセマンティクス、多言語、マルチモーダル理解の処理に優れています。しかし、従来のキーワード検索は、名前、オブジェクト名、略語などの完全一致検索にはより効果的です。現在、主要なハイブリッド検索技術は、両方の利点を兼ね備えています。ベクトルインデックスとキーワードインデックスを事前に構築することで、クエリ中に最も関連性の高いコンテンツを抽出し、単一の方法の限界を克服し、様々な検索技術の最適なバランスを見つけることで、情報検索の包括性を向上させます。 より正確な検索情報に基づいて大規模なモデルが推論できるようにするため、ハイブリッド検索によって候補文書を取得した後に、文書にスコアとランク付けを行う再ランク付けモデルを導入することができます。これにより、最も関連性の高い文書が最初にランク付けされます。再ランク付けモデルの基本原理は、ユーザーの質問と候補文書の意味的一致度に基づいて文書リストを並べ替えることです。関連度スコアを計算することで、システムは関連度の高い文書をランク付けして返すため、検索結果の精度が向上します。 これらの技術の組み合わせは、複数のアプリケーションシナリオにおいて大きな可能性を秘めています。エンタープライズインテリジェントナレッジベースでは、ハイブリッド検索によって関連文書を迅速に特定し、再ランキングモデルによって正確な文書表示を実現することで、ナレッジマネジメントの効率性を向上させます。 ハイブリッド検索および再ランキング技術アーキテクチャ IV .精密RAGシステムの構築:複雑なプロセスの簡素化と知識管理の効率化精密なRAGシステムの構築は、知識の抽出、スライス、定量化、検索、生成といった複数の技術的側面を綿密に最適化する、極めて複雑なプロセスです。企業の実際のビジネスニーズに沿った、効率的でインテリジェントな知識管理を真に実現するには、継続的な試行錯誤と調整が不可欠です。
企業の知識活用効率向上を支援するため、Inspur Informationは、徹底的な分析と多段階にわたる技術最適化手法を組み合わせ、エンタープライズ・ビッグデータ・モデル開発プラットフォームであるEPAI(MetaBrain Enterprise Intelligence)内にエンドツーエンドのRAGシステムソリューションを提供しています。このソリューションは、実績のあるベストプラクティスを取り入れており、複雑な技術的試行錯誤にかかるコストを削減し、エンタープライズ・ナレッジベースを迅速に構築し、ナレッジマネジメントの効率とパフォーマンスを向上させるのに役立ちます。 PDF 、 TXT 、 DOCX 、 EXCELなど10種類以上のドキュメント形式をサポートし、企業独自のデータタイプを包括的にカバーし、さまざまなタイプのデータをシームレスに統合して効率的に活用できるようにし、企業のナレッジベースの構築と管理のための強固な基盤を提供します。 業界をリードするドキュメント解析モデル( EPAI-Parser)を搭載し、テキスト、表、画像、数式など、様々な情報を正確に抽出します。表の内容認識の精度は95%を超え、様々な種類の数式の検出・認識は業界最高レベルに達しています。 このシステムには、中国語テキスト検索能力を強化するために特別に設計された組み込みモデル「Yuan-EB」が組み込まれています。Yuan-EBは、権威ある組み込みモデルベンチマークであるC-MTEBにおいて検索タスクで優勝し、 RAGシステムの検索精度を効果的に向上させました。 最先端のハイブリッド検索技術と結果再配置技術を組み合わせることで、エンドツーエンドの検索精度は90%を超えます。また、情報追跡、知識ベース横断検索、言語横断検索もサポートし、元の情報をインテリジェントに抽出・正確に特定することで、システムの透明性と検証可能性を向上させるとともに、ドメイン間の知識を統合し、グローバルなビジネスニーズに対応します。 機密単語辞書 (ブラックリストとホワイトリストを含む) に基づいて、多段階のフィルタリングおよびレビュー システムを実装します。 マルチレベル セマンティック モデル、外部APIフィルタリング (オプション)、大規模なモデル値の調整などのコア メソッドを使用して、ユーザー入力とモデル出力を迅速かつ正確に確認し、生成されたコンテンツのセキュリティとプライバシーを確保します。 EPAI知識ベース検索の基本プロセス
YuanBrain Enterprise Intelligence EPAIを活用することで、企業はわずか3ステップで大規模なRAGモデルを効率的に構築し、データ資産を最大限に活用するための包括的、効率的、かつ信頼性の高いナレッジマネジメントプラットフォームを構築できます。YuanBrain Enterprise Intelligence EPAIは今後もRAGシステムのコアテクノロジーの最適化を継続し、各段階のパフォーマンスを綿密に改善することで、企業にとって安定した高度なソリューションを提供していきます。これにより、企業は技術変化の時代においてもナレッジマネジメントと応用の効率性と精度を向上させ、蓄積されたナレッジを真にインテリジェントな生産性へと転換することができます。
InspurのEnterprise Platform of AI(EPAI)は、大規模AIモデルの導入を支援するソリューションです。企業が大規模AIモデルを導入するための、効率的で使いやすく、安全なエンドツーエンドの開発プラットフォームを提供し、データ準備、モデルトレーニング、知識検索、アプリケーションフレームワークのためのツールを提供します。多様なコンピューティングパワーとマルチモデルアルゴリズムのスケジューリングをサポートし、企業が生成型AIアプリケーションを効率的に開発・導入し、インテリジェントな生産性を構築できるよう支援します。大規模モデル技術の進化に伴い、EPAIは革新を続け、企業のインテリジェントアプリケーションの革新と効率性の向上を支援します。
|