HUOXIU

専門分野向けのKAG知識強化サービスフレームワークに関する国内初の技術レポート。大規模モデルを垂直分野に展開するのに役立ちます。

アントグループのナレッジエンジン責任者である梁磊氏は先日、外灘サミットにおいて、過去6ヶ月間のナレッジグラフと大規模言語モデルの統合におけるチームの進捗状況を発表しました。また、中国初の専門分野向けナレッジ強化サービスフレームワークであるKAGもリリースしました。これは、ナレッジ強化機能を備えたプロフェッショナルなインテリジェントエージェントの構築を支援するものです。本記事はそのレポートの書き起こしです。
関連する技術レポートはarXivご覧いただけます


今回、KAGの総合的な技術レポートを公開しました。記号計算とベクトル検索は多くの点で相補的であるため、知識グラフにおける両者の利点を真に統合することを目指しています。同時に、大規模言語モデルの理解・生成能力を活用し、知識強化型大規模言語モデル生成システムを構築します。KAGの技術フレームワークは継続的に改良され、技術レポートも継続的に更新されます。

KAG フレームワークは、OpenSPG オープンソース プロジェクトでまもなくリリースされる予定です。

GitHubアドレス:

01 大規模垂直アプリケーションにおける主要な課題


約2年間の研究と実践を経て、業界では大規模言語モデルの利点と限界、そして特定の業界アプリケーションにおける課題が概ね認識されるようになりました。大規模言語モデルは強力な理解・生成能力を発揮する一方で、ドメイン知識の不足、複雑な意思決定の難しさ、専門分野における信頼性の不足といった課題を抱えています。私たちは、「信頼性」こそが、大規模言語モデルを現実世界のシナリオにうまく実装するための重要な前提条件であると考えています。


1.1 LLM の学生には厳密な思考力が欠けています。

まず、大規模言語モデルは厳密な推論能力を提供できません。例えば、「『バック・トゥ・1989』の共通の主演俳優は誰か?」という質問で、複数の大規模国内言語モデルをテストしたところ、回答の精度と一貫性が低いことが分かりました。一部のモデルは回答できたとしても、論理エラーや不適切な問題分解が見られました。条件を「男性主演」や「女性主演」に変更したり、時間制約を追加したりするなど、条件が複雑になると、精度と安定性はさらに低下していきます。


これらの問題に対処するため、業界では数多くの研究が行われてきました。例えば、思考連鎖(COT)モデルを構築し、多重/ツリー/グラフ思考連鎖テンプレートを定義することで、言語モデル(LLM)が問題を合理的に分解するように導くことができます。今年は、事実情報における欠点を補うために、大規模言語モデルにRAG技術を統合することに焦点を当てた研究が増えています。さらなる開発として、グラフ構造を用いて検索メカニズムを最適化するGraphRAGがあります。
現在、外部知識ベースを導入する手法が広く用いられています。しかし、RAGなどの技術を導入して、特定の分野の知識ベースや事実文書を大規模言語モデルに提供し、再生成を行ったとしても、生成される回答の精度は完全に保証されるわけではありません。


1.2 事実、論理、正確性に関する誤り

下の画像の左側は、大規模モデルを用いて政府報告書の指標を解釈する例を示しています。ビジネス担当者が事前にラベル付けしているにもかかわらず、大規模モデルは独自の解釈を組み込んでいるため、歪んだ情報や裏付けとなる証拠のないエラーが発生します。例えば、ある都市が特定の州で1位であると記載されているかもしれませんが、ビジネスの観点から見るとこれは正しくありません。同様に、ある銀行の株式8,000万株がオークションで売却されなかったという情報は、元の文書には存在しません。さらに深刻なことに、モデルは数値的および論理的なエラーを生成する可能性もあります。例えば、元の文書に記載されているビジネス指標は2022年のものですが、生成されたコンテンツでは2023年のものとしてラベル付けされている可能性があります。


外部知識ベースを使用しても、想起プロセスにおける不正確さは依然として残ります。右の例は、ベクトル計算に基づくRAG法の限界を示しています。例えば、年金の探し方を問い合わせる場合、ベクトル計算を直接用いて文書を取得することは、ビジネス専門家が定義した知識と関連性がない可能性があります。
垂直的なドメイン内では、表面的には似ていないように見える知識が、実際には密接に関連していることがよくあります。例えば、「年金」は「5つの社会保険と1つの住宅基金」というカテゴリーに属しており、これは国の政策と密接に関連しています。大規模なモデルでは、このような情報を恣意的に生成することはできません。そのため、モデルの挙動を制約し、効果的な知識入力を提供するためには、事前に定義されたドメイン知識構造が必要です。


1.3 一般的なRAGはLLM幻覚問題の解決にも苦労しています。Antは最近、RAGによって引き起こされる幻覚現象に関する評価レポートを発表しました。

RAGや外部知識ベースを組み込むことで、大規模モデルの錯視問題を効果的に回避できると一般的に考えられています。しかし、これは事実ではありません。このアプローチによって生じる錯視問題は、多くの場合、より微妙で検出が困難です。下の画像に示すように、元のテキストでは、エナジードリンクに含まれるビタミンやミネラルは、体の栄養補給や運動後の疲労軽減に効果的であると説明されています。しかし、モデルの書き換え後、これが「疲労感の増加に一定の効果がある」と誤って説明されてしまう可能性があり、このような誤解を招く情報はユーザーを混乱させる可能性があります。


さらに、元の文では「蛹になってから15~18日かかる」という部分を「蛹になってから25~32日かかる」と書き換えてしまうといった、実体の反転の問題もあります。モデルによって生成されたコンテンツが数百語、あるいは数千語に達すると、このような小さな誤りを検出することがより困難になります。
評価結果によると、RAG技術を追加しても、大規模言語モデルの錯視率は依然として30%~40%と非常に高く、垂直分野への大規模言語モデルの適用には極めて高度な専門知識が求められます。


1.4 専門知識サービスの課題と要件

実際のビジネス意思決定シナリオでは、調査レポートの作成から自動車保険金請求の処理まで、複雑な問題を解決するには、問題計画、データ収集、意思決定の実行、そして生成とフィードバックのプロセスといった厳密な手順が必要です。大規模言語モデルを専門分野に適用する場合にも、厳密かつ制御可能な意思決定プロセスが不可欠です。


大規模モデルに基づく専門知識サービスを提供する際には、社会や特定分野への貢献度を高めるために、以下の条件を満たす必要があります。

  • まず、知識の境界の完全性、知識の構造と意味の明確さを含む知識の正確性を確保することが不可欠です。
  • 第二に、論理的厳密さ、時間に対する敏感さ、数値に対する敏感さが求められます。
  • 最後に、知識に基づく意思決定を行う際に包括的な裏付け情報を容易に取得するためには、完全なコンテキスト情報も必要です。

これらは、現在ほとんどの大規模モデルに欠けている機能でもあります。この点を踏まえ、私たちは今年前半に広範な調査を行い、知識強化型で垂直指向性を持ち、制御可能な生成フレームワークの構築を正式に開始しました。

02 KAG: 専門分野の知識に基づくサービス強化のためのフレームワーク


下の図は、OpenSPGオープンソースプロジェクトに基づくアップグレードである、知識強化型生成フレームワークKAG(Knowledge-Enhanced Generation)の全体的な原理を示しています。大規模言語モデルと知識グラフの現在の組み合わせにおいて、以下の5つの側面を強化しました。


まず、知識表現を強化しました。従来の知識グラフは強力なスキーマによって制約されており、適用のハードルが高く、データが疎であるため、垂直領域の質問に答える際に解決できないことがよくありました。そこで、大規模言語モデル向けに知識表現を最適化・強化し、大規模言語モデルを用いたアプリケーションをより適切にサポートできるようにしました。


第二に、優れた統合ツールとして、グラフは、厳密な学術的知識であろうとテキストの情報であろうと、さまざまな種類の知識をより適切に結び付けることができます。

そこで、従来の用語ベースの転置インデックスをグラフベースの転置インデックスにアップグレードし、相互インデックス構造を構築しました。これにより、文書を効率的にインデックス化するだけでなく、文書間の意味関係とエンティティ間の一貫性も維持されます。


第三に、推論プロセスにおいて、論理的厳密性を確保するために記号分解法を採用しました。言語モデルによって生成された言語は、論理的一貫性の保証に苦労することが多いため、記号分解を実行するためにLogicForm駆動型のソルバーと推論を導入しました。


第4に、ナレッジグラフ構築のコストと実用化における効率性のギャップを埋めるため、ナレッジグラフ構築にオープン情報抽出法を採用しました。この手法は構築コストを大幅に削減しますが、ノイズも増加します。そこで、概念知識を用いてオープン情報とドメイン知識を整合させる知識整合メカニズムを導入し、オープン情報抽出と意味整合のニーズのバランスをとることを目指しました。


最終的に、大規模言語モデルと知識グラフの機能をより適切に統合し、より効果的な連携を実現することを目指したKAGモデルを開発しました。命令合成を通じて両者の有機的な相互作用を促進することで、記号計算とベクトル検索の利点を完全に統合し、言語モデルの理解と生成能力を活用して、垂直分野における応用と機能強化を推進することを最終目標としています。

OpenSPG GitHub


これらの主要なアップグレードの詳細については、以下で説明します。


2.1 LLMのユーザーフレンドリーな知識表現

まず、昨年のOpenSPGプロジェクトのオープンソース化に続くさらなる開発として、意味表現のアップグレードを行いました。OpenSPGプロジェクトの当初の目標の一つは、知識グラフをバイナリの静的構造から多次元の動的構造へとアップグレードすることでした。今年は、ディープコンテキストアウェアネスにおいて進歩を遂げ、テキストコンテキストの理解を強化し、言語モデルへのより適切な対応とより豊富なコンテキスト情報の提供を可能にしました


現在のグラフ構造は、主にLPG(ラベル付きプロパティグラフ)とRDF(リソース記述フレームワーク)の2つの流派に分かれています。LPGはスキーマを持つためデータベースとの互換性が高く、RDFは比較的オープンです。大規模言語モデルをより適切にサポートし、データから情報、そして知識への変換を実現するために、DIKW階層パラダイムを参照することで統一的な統合を実現しました。グラフ構造は、スキーマ制約付きモデリングとスキーマフリーモデリングの両方を同一のエンティティ空間内で実現できるようにアップグレードされました。


さらに、エンティティと関係性に基づいてドキュメントの転置インデックスを作成できます。これにより、グラフ計算におけるグラフトラバーサルを同一空間内で完了できるだけでなく、ドキュメントを対応するドキュメントチャンクに関連付けることで、関連性の再現が可能になります。


今年人気の GraphRAG パラダイムに対する 2 つの主なアプローチを簡単にまとめると次のようになります。

一つのアプローチとして、MicrosoftのGraphRAGが挙げられます。しかし、MicrosoftのGraphRAGは厳密にはGraphRAGではありません。ナレッジグラフアプローチを用いてドキュメント構造を整理し、階層的な要約を作成し、最終的にこれらの要約を用いてユーザーの質問に答えるという単純なものです。このアプローチは、生成された回答を流暢さ、質問への対応、網羅性のみに基づいて評価し、事実の正確性を無視するため、誤った安心感を与える可能性があります。当社のテストでは、Microsoft GraphRAGは事実に基づく回答を提供するという点において、精度が低いことが示されています。


HippoRAGに代表される別のアプローチでは、グラフベースの手法を用いて転置インデックスを構築し、質問に答えるための文書を取得します。マルチホップ質問応答において、HippoRAGは従来のNaive RAG手法に比べて大幅な改善を示しています。


私たちの目標は、知識の階層構造の混乱を最小限に抑えながら、垂直的な領域においてより正確な事実に基づく回答を得ることです。これは、同じ領域内に、専門的かつ厳密なスキーマ制約に基づく知識だけでなく、グラフ構造情報や文書から抽出された知識、そして元の文書自体も存在することを意味します。これらの異なるレベルの知識を統合できれば、厳格なものから比較的緩やかなものまで、幅広い意思決定パラダイムを構築できます。


2.2 クロスインデックス:構造化知識とテキストデータのクロスインデックス構造

2つ目の重要なアップグレードは、用語ベースの転置インデックスからグラフベースの転置インデックスに移行したことです。元の文書を取得した後、まずオープン情報を抽出します。従来のナレッジグラフとオープンソースのOpenSPGには既に成熟したソリューションがあるため、構造化構築の詳細についてはここでは触れません。


文書から主要な要素と記述情報を段階的に抽出し、テキストチャンクを効果的にセマンティックセグメンテーションします。結果として得られるグラフ構造は、具体的なビジネスエンティティ、一般的な概念知識、そしてテキストチャンクの3つの部分で構成されます。これにより、グラフを走査し、テキストチャンクを取得し、効果的な分析を行うことができます。上図の左側に示すように、このグラフ構造により、文書間の関係性をより効果的に整理することができます。


このセクションでは、浙江大学と共同で取り組んでいるプロジェクト「OneKE」のアップグレードについてご紹介します。今年5月にリリースされたバージョンでは、OneKEは主に構造化情報抽出をサポートし、パラメータ数が少ない大規模モデルであっても、それに匹敵するパフォーマンスを実現しました。エンティティ認識、関係抽出、イベント抽出において非常に優れたパフォーマンスを発揮しました。最近、さらなるアップグレードを行い、オープン情報抽出もサポートしました。


2.3 ハイブリッド推論:記号的意思決定、ベクトル検索、大規模モデルハイブリッド推論

3つ目のアップグレードは、ハイブリッド推論エンジンの構築です。人間が質問に答える前に考え、計画を立てるのと同じように、私たちは知識グラフに基づく技術パラダイムを開発し、厳密な意思決定を支援しています。ハイブリッドなインデックスアプローチを採用することで、時間、数値、論理に敏感な複雑な意思決定プロセスをサポートすると同時に、情報検索を通じて知識グラフのスパース性と知識ギャップを補完します。OpenAIが最近リリースしたo1モデルも、長鎖論理推論における大きな進歩を表していますが、競争上の優位性を確保するため、ユーザーに元の思考プロセスを表示しません。


KAGフレームワークでは、シンボル駆動型の問題解決アプローチを採用し、論理的に実行可能な論理形式表現、すなわち中間論理実行プランとして機能する論理クエリを生成します。論理クエリを取得すれば、すべてのデータはグラフ構造に基づいて構築されているため、グラフ空間内で操作を実行できます。このグラフ空間は、第一に論理的に厳密な知識、第二にオープンな情報的知識という階層構造を持っています。

これにより、レイヤーごとに決定を下すことができます。まず、論理的に厳密な知識レイヤーで決定を下します。答えが見つからない場合は、オープン情報レイヤーで決定を続けます。まだ答えが見つからない場合は、チャンク空間で関連検索を実行します。これにより、答えの再現率と精度が大幅に向上します。


最終生成段階では、まだ探索の初期段階にあり、クエリ重視の要約など、業界で主流となっている手法をいくつか使用しています。この手法は、クエリ構造に基づいて回答を抽出できます。従来のナレッジグラフやインデックスの大きな問題は、インデックス構築とユーザークエリが分離していることです。これにより、知識の粒度に不一致が生じやすくなります。クエリ重視の要約は、このギャップをより適切に埋めることができます。


下の図は、技術レポートで言及されている全体的なアーキテクチャを示しており、右側には具体的な例を示しています。例えば、「アメリカ南北戦争後、どの政党が南部諸州への厳しい処罰を主張し、2010年にはどの機関を支配していたか」という質問に対して、システムはそれを論理的な記号表現に分解します。この表現はKGDSLに直接変換することもできますが、自然言語から生成される関数式の正確性と簡潔性を考慮し、論理的な実行計画を表すためにこの形式を選択しました。


現在、私たちは3段階の推論アプローチを採用しています。生成前に、まずグラフ記憶空間で完全一致検索を行い、次にSPO検索、そしてチャンク検索を実行することで、階層的な検索と推論を実現します。


生成フェーズでは、大規模言語モデル生成中に生じる錯覚を軽減または抑制するために、グラフ知識を導入します。テキストから知識グラフを抽出する際に、テキストと知識グラフの間に良好な構造化されたデータ-テキストマッピング関係が形成されることを発見しました。第一に、テキストから主要な要素情報を構造に抽出できます。第二に、構造化されたグラフは、大規模言語モデルに、そのようなグラフ構造に基づいてテキストを生成するタスクを慣れさせます。

そこで、テキストからSPOへのマッピングとSPOからテキストへのマッピングを双方向に行うタスクを設計しました。前者は知識抽出に、後者は生成プロセスに使用されます。このようにコーパスを合成することで、SFT段階で使用する場合でも、強化アライメント段階で使用する場合でも、大規模言語モデルの錯覚を効果的に軽減できます。


元のテキストから複数のトリプルを抽出できます。微調整とアライメント強化により、この情報が言語モデルに注入され、生成時に構造パラダイムへの適合性が向上します。この機能を、左側の地域リスクレポート生成シナリオなどの社内業務アプリケーションに適用しました。元のアーカイブモデルと比較して、錯視率が大幅に減少しました。このアプローチは効果的であると考えており、今後もさらに検討を進めていきます。


2.4 意味的整合:情報検索と専門的意思決定のバランス

4つ目の重要なアップグレードは、専門的な意思決定と情報検索のバランスを取ることです。情報検索は本質的に検索エンジンのアップグレードであり、ある程度のエラー率を許容しますが、専門的な意思決定ではエラーに対する許容度が非常に低いです。統一された知識サービスフレームワーク内で情報検索と専門的な意思決定を同時に実行することは困難です。そこで、上位層でのオープンな情報抽出によって構造化された要素を取得し、下位層でのスキーマ制約によってより厳密な知識を構築することで、この機能をアップグレードしました。


最終的には、概念ベースのセマンティック アライメントを通じて SPG に基づくドメイン ナレッジ グラフを構築することで、情報検索に必要なオープン抽出機能と専門的な意思決定に必要なスキーマ制約構築機能をより適切に対応できるようになります。


以下は、オープンな情報抽出に基づいて意味的に整合されたナレッジグラフを構築する方法を示す簡単な例です。左側の元のテキストから始めて、セマンティックセグメンテーションを実行し、さらに情報を抽出してエンティティ間の関係性を確立します。この時点では、グラフにはまだかなりの量のノイズが含まれています。現在主流のGraphRAGソリューションは、情報抽出段階、つまりトリプルグラフを生成してグラフデータベースに直接書き込む段階までしか実行できません。しかし、意味的な整合はナレッジグラフ構築において最も困難な部分です。


この目的のために、抽出された情報にエンティティリンク、エンティティフュージョン、概念と事実の階層構造といった従来のグラフ手法を適用するなど、広範な研究を行いました。その結果、グラフ構造全体の密度と意味的完全性が大幅に向上しました。


さらに、文書ベースの知識に基づく概念の階層化と効果的な補完、そして外部のナレッジグラフやナレッジベースを最大限に活用する方法を模索しています。この点に関しては、浙江大学およびOpenKGと連携してOneGraphプロジェクトを推進し、OneGraphを通じて知識アライメント能力の向上とナレッジグラフ構築コストの削減を目指しています。


オープンドメインに加えて、垂直ドメインについても調査しました。垂直ドメインには、医学、法律、経済などの用語、語彙、概念ライブラリが多数含まれており、大規模な言語モデルではそれらを完全に理解することが困難な場合があります。そこで、抽出効率とドメイン知識との整合精度を向上させるため、ドメイン固有の語彙と概念をオープン抽出プロセスに組み込むことを試みました。

最適化後、KAGの垂直領域への適応性を検証しただけでなく、一般的なデータセットにおけるマルチホップ質問応答において既存のRAG手法と比較した結果、KAGは最先端の手法を大幅に上回り、2wikiのF1スコアで33.5%、hotpotQAで19.6%の相対的改善を達成しました。このフレームワークの最適化を継続しており、エンドツーエンド実験とアブレーション実験を通じてその有効性を実証しました。さらに、論理的なシンボル駆動型推論と概念アライメントを通じて、このフレームワークの有効性を検証しました。


私たちは、この技術的能力をコミュニティに広げ、より多くの関係者を引き付けて共同でこのフレームワークを構築したいと考えています。このフレームワークの垂直分野への適用性を検証するため、今年はヘルスケアと政府関係のシナリオにおけるAnt Assistantの適用を支援してきました。政府の質疑応答シナリオでは、従来の単純なRAG法と比較して、精度が66%から91%に向上しました。ヘルスケアの質疑応答では、現在の精度は80%を超えており、より専門的な指標解釈タスクでは、90%以上の精度に達しています。また、より多くのセクターにデータ範囲を拡大することで、継続的に最適化を行っています。これらのシナリオは、この方法が一般的な情報検索だけでなく、垂直分野における専門的な意思決定にも適していることを示しています。


2.5 KAGモデル: LLMとKG間の共同作業の定義

最後のセクションでは、KAGモデルについて簡単に紹介します。KAGモデルの主な目的は、大規模言語モデルと知識グラフの統合にかかるコストを削減することです。GPTやQWenといった基本的な大規模モデルに直接アクセスするのはコストがかかりすぎます。命令合成を用いることで、小規模なモデルでも大規模モデルと同等、あるいは匹敵する結果が得られることがわかりました。


これに基づいて、大規模言語モデルとナレッジグラフの機能、特にナレッジグラフに必要な主要な機能を整合させました。

  • まず、自然言語理解能力です。ユーザーからのクエリや生の文書を扱う場合でも、テキストから構造化された情報を抽出し、情報間の関係性と論理的な依存関係を明らかにすることが、このシステムの中核となるタスクです。
  • 第二に、自然言語推論能力です。グラフタスクにおいては、自然言語推論によって概念補完、思考連鎖、知識融合の効率性を向上させることが期待されます。言語モデルの観点からは、情報抽出が完了した後、情報間の相関性を高める必要があります。
  • 最後に、自然言語生成機能についてです。ConceptNetやWordNetといった従来のナレッジグラフには、説明や文脈的サポートが不足しているという大きな欠点があります。ナレッジグラフの維持コストが高い理由の一つは、説明情報の不足にあります。そのため、ナレッジグラフを構築する際には、概念用語に説明情報を付加する必要があります。説明情報がない場合は、その知識は信頼できないと判断されます。さらに、生のテキスト用語やフレーズの断片だけでは不十分であるため、言語モデルを用いて一般的な概念説明を生成します。

大規模言語モデルを生成するプロセスにおいて、知識構造を効果的に注入し、知識構造の制約に適合させるよう努めています。知識グラフは優れた命令合成器であり、その構造化された特性はテキスト内の内部関係をより適切にラベル付けするのに役立つことが分かりました。知識グラフから得られる、明確な意味と構造を持つ大規模な概念グラフや垂直ドメイングラフと、生のテキストコーパスを組み合わせることで、大量の命令を合成することができます。


例えば、百科事典の知識グラフにおけるジャッキー・チュンとアンディ・ラウの関連性を活用することで、タスクのロジック構造を分解するための指示を含む、様々な指示を容易に合成できます。これにより、問題のより適切な分解が可能になり、グラフのガイダンスにより、生成された指示が実行可能で、解答を提供することが保証されます。解答基準を満たさない指示には負のスコアが与えられ、満たす指示には正の報酬が与えられます。この手法は、情報抽出や自然言語推論などにも応用できます。


公開されている既存の概念マップには、階層関係、包含関係、論理的因果関係に加えて、帰納法、演繹法、アブダクション法といった認知科学の古典的な問題パターン、そして順序関係、上位関係、包含関係、ブロック関係といった30以上の概念的意味関係など、数十もの意味関係が含まれています。これらはすべて、自然言語推論の指示を合成するために利用できます。これらのパターンは、専門家が長年かけてまとめた人間の意思決定パラダイムであり、言語モデルに組み込むことができれば、推論能力と理解能力の向上に役立つでしょう。


モデルの能力に関しては、命令合成とセマンティックアライメントを用いることで、小規模モデルでも大規模モデルに匹敵する性能を達成できることが分かりました。自然言語常識概念推論においては、微調整を行った結果、Llama3 8Bモデルは概念補完などのタスクにおいてGPT3.5よりも高い精度と優れた性能を達成しました。
ナレッジグラフから合成された指示は特定のリーダーボードを対象としていないため、これらの指示を言語モデル自体に追加することで、理解力と推論能力をさらに向上させることができます。左側の合成コーパスを一般的な言語モデルに追加することで、全体的に良好な改善が見られました。一部のリーダーボードではパフォーマンスが変動する可能性はありますが、全体的には改善が見られました。


03 垂直産業におけるKAGの典型的な用途


次に、KAGテクノロジーフレームワークの実践的な応用例を2つ紹介します。


今年は、KAGフレームワークを継続的に改善しながら、ビジネスニーズをサポートしてきました。Alipay Life Managerのトレンドイベント機能や地域リスクレポート分析シナリオなど、KAGはより論理的に正確な調査レポートを生成できます。さらに、Alipayアプリは今年、政府サービスとヘルスケアという2つの重要な機能強化にナレッジグラフ技術を適用しました。

ビデオを見る


これはOpenSPGをベースにしたアップグレード版の簡単なデモです。オープンナレッジベースやドキュメントを入力すれば、ナレッジグラフを素早く構築し、回答を完成させることができます。ある程度の精度が許容できる場合、ユーザーは非常に簡単な操作でタスクを完了できます。

今回、KAGの総合的な技術レポートを公開しました。記号計算とベクトル検索は多くの点で相補的であるため、知識グラフにおける両者の利点を真に統合することを目指しています。同時に、大規模言語モデルの理解・生成能力を活用し、知識強化型大規模言語モデル生成システムを構築します。KAGの技術フレームワークは継続的に改良され、技術レポートも継続的に更新されます。


システムは複雑な記号判定を実行でき、複雑な記号判定が不十分な場合はベクトル検索で補完します。フレームワークの将来のバージョンでは、ユーザーが調整可能なパラメータを提供する予定です。これにより、非常に高い精度を求めるユーザーは生成されるコンテンツを削減でき、精度に対する許容度が高いユーザーは基準を適切に緩和できます。ユーザーは、アプリケーションシナリオに応じてこれらのパラメータを調整できます。


この機能は、後日 OpenSPG オープンソース プロジェクトでリリースされる予定です。

にはGitHubからアクセスできます:


または、「SPG Knowledge Graph」WeChat公式アカウントをフォローしてください。

OpenSPG技術交流グループを設立しました。ナレッジグラフ技術に興味のある学生は、アシスタントのWeChatアカウント(jqzn-robot)にぜひご参加ください。

記事のおすすめ

Ant Group のナレッジ グラフ管理システムに関する研究成果は、トップ クラスの国際会議で認められ、KGFabric の論文が VLDB 2024 に選出されました。

OpenSPG は、成熟した信頼性の高い知識構築ソリューションを提供する最初のリリースをリリースしました。

なぜナレッジ グラフ + RAG が従来の RAG よりも優れていると言われるのでしょうか?