HUOXIU

大規模モデルの時代にもナレッジグラフは必要でしょうか?次世代ナレッジグラフセマンティックフレームワークであるSPGは、企業のデジタル変革を推進します。

企業はデジタル化の過程で膨大なデータを蓄積してきました。企業は、効率的な運用・管理とリスク管理を実現しながら、ユーザーにとっての価値を継続的に創造していく必要があります。そのため、デジタルインフラへの要求は高まり、ナレッジグラフ(KG)や大規模言語モデル(LLM)といったAI技術の多様な応用シナリオが生まれています。


LLMの応用は錯覚問題によって制限されている一方、KGは構造化された知識の表現能力、解釈可能性、そして高い計算効率を有し、推論マイニング、手がかりの洞察、分析クエリなど幅広い応用が可能であることを指摘する。さらに、LLMとKGのデュアルドリブンアプローチは、それぞれの補完的な機能により大きな可能性を秘めており、言語理解とインタラクティブアプリケーションにおけるLLMの産業化に向けた重要な道筋となることが予測される。本稿では、これを踏まえ、ナレッジグラフ技術が直面する現在の課題をさらに詳細に考察し、Ant Groupのナレッジグラフプラットフォームの実践に基づき、OpenKGと共同開発した産業グレードのセマンティック拡張フレームワークSPG(Semantic-enhanced Programmable Graph)とナレッジグラフエンジンを紹介する。


二元静的から多次元動的へ:知識管理モデルの飛躍

ナレッジグラフ(KG)は、データをモデル化および管理するための手法です。グラフ構造、知識セマンティクス、論理的依存関係を活用することで、事実に基づく知識の保存、推論、クエリが可能になります。初期のアプリケーションでは、主に公開コーパスから百科事典的なクラス<s, p, o>のトリプルを抽出し、静的なナレッジグラフを構築することで、検索と推奨の効率とエクスペリエンスを向上させていました。


2018年以降、金融、ヘルスケア、公共安全、エネルギーなど、企業のデジタル化の垂直分野におけるデジタルグラフの応用がますます広がっています[1, 2]。iResearch Consultingのレポート[3]によると、中国のデジタルグラフ市場規模は2026年までに290億元に達すると予想されており、金融と公共安全が主な牽引役です。ドメイングラフには、網羅性、正確性、解釈可能性などの特性が求められるため、グラフデータのソースもテキストコーパスから企業のマルチソースの異種データに移行しています。これらのデータには、非構造化/半構造化ユーザー生成コンテンツ/専門生成コンテンツ(UGC/PGC)、業務運営、取引履歴、ログ記録などから蓄積された構造化された基本プロファイル、および各分野に固有のビジネスエキスパートの経験が含まれます。ビジネスの成長とリスク管理を中心に、顧客、材料、チャネルなどの完全な3次元プロファイルが構築されます。図1は、マーチャントエンティティの構築プロセスを示しています。


図1. マーチャントエンティティの構築プロセス


現在、小売業者は静的な店舗の限界を突破し、決済用のQRコードによって誰でも小売業者になれるようになりました。これはリスク管理の難易度を高めています。テキストの概念タグのみに基づくリスク管理は意味をなさず、取引やソーシャルインタラクションといった実際の関係性を追加するだけでは到底不十分です。図2に示すように、より効果的なつながりを発見するには、複数のエンティティ要素を横断した深い情報連携が必要です。


グラフ構築の要件も、静的な常識から、深い文脈に基づく動的な時空間へと移行しています。これは、メディア(Wi-Fi、電話、電子メールなど)に基づく関係性の伝達だけでなく、地理的連続空間(Spatial)[4]の境界に基づく集約と関連付けの実現、そしてメソ/マクロ/ミクロイベントの多次元伝達の追跡によって、エンティティ間の疎な関係セマンティクスの稠密化を実現することを必要とします。


図2. 深層文脈意味拡張の基礎となる事実グラフ


ビジネス アプリケーションの観点から見ると、ナレッジ グラフは次のような知識推論タスクの構築に使用できます...

  • 商品の推奨: カテゴリ、意図、時空間的つながりなどのセマンティクスを活用して、人と商品、人と販売者、商品とチャネルを結び付け、意味的連想に基づく商品の想起と表現の転送を実現します。

  • eKYB (electronic Know Your Business): メディア、行動イベント、時空間集約をリンクすることで、共同所有者や店舗の共同所有者などの商人を識別し、効果的なプロファイルの完成とリスクの洞察を可能にします。


さらに、知識グラフ[5]に基づいて構造を考慮した制御可能なテキスト生成も実現できます。たとえば、

  • インテリジェントなマネーロンダリング対策のレビュー、識別、およびメッセージ生成: 深いコンテキストを組み合わせて危険な行動を予測し、犯罪グループを特定し、資金チェーン、時空間集約、デバイスの関連付けを通じてグループ/異常構造を再構築し、ナレッジグラフからテキストへの変換を通じて解釈可能なメッセージを出力します。

  • AIを活用した被害者向け警告コール:特定された不審なデバイス、フィッシングドメイン/AppID、フィッシンググループがリアルタイムで取引ユーザーに通知され、スクリプトメッセージが生成されてユーザーに警告を発し、リスクを軽減します。これらのアプリケーションは、よりスマートで正確なリスク管理とビジネス判断を実現し、業務の効率と価値を向上させることを目指しています。


マーチャント業務やリスク予防の場合、知識管理には強い文脈感覚が必要です。一般的な常識的な知識グラフは、文脈や時空間関係を認識できる情報を削除しています。実際のアプリケーションでは、議論の要素が多様化したり絡み合ったりすると、個々の違いを認識できず、概念帰納法のみが使用されるため、推論アプリケーションの効果が大幅に低下します[6]。同様の問題は、公安詐欺防止、保険金請求、医療相談、企業信用の分野でも発生しています。そのため、垂直分野の企業の知識グラフに対する期待は大きく変化しました。知識表現も、図3に示すバイナリ静的構造から、実際のアプリケーションの要件によりよく適応するために、時空間多次元動的関連付けへと進化しました。


図 3. 知識表現のバイナリから多次元への進化。


エンタープライズデジタルビジネスにおけるLLMとKGの応用パラダイム

2022年末、ChatGPTは世界的なセンセーションを巻き起こし、中国では数百のモデルによるバトルが繰り広げられました。しかし、LLMはブラックボックス型の確率モデルであるため[7]、事実に基づく知識を捉えることが難しく、錯覚や論理的誤りが多く存在します[8]。同時に、知識グラフの事実性、適時性、論理的厳密さは、LLMの優れた補完となっています。知識グラフを制約条件や複雑な推論能力の源として用いることで、LLM+KGの応用パラダイムは研究者から広く注目を集め、多くの応用探究と研究を促進してきました[7, 8]。


さまざまなアプリケーションシナリオでは、マーチャント運営とリスク管理を例にとると、アルゴリズムのタスクは次の 5 つの側面に分けられます。

  • (1)インタラクティブアプリケーション:消費者側(C)製品における商品・サービスの表示、供給側(B)製品におけるサービス・マーチャントのオンボーディングを含む。 (2)ビジネス管理:企業およびマーチャントの運営に必要なビジネス分析および資材管理。

  • (3)リスクの予防と管理:ブラック企業やグレー企業との闘いは、事業運営における永遠の課題です。企業は、データの薄い顧客グループに対する認識と網羅性を高め、新たなリスクパターンを迅速に特定する能力を強化する必要があります。

  • (4)知識構築:外部の非構造化・半構造化データおよび構造化データをドメイン知識に変換する。

  • (5)知識マイニング:企業は、主要要素とエンティティ間の関係のロングテールカバレッジを継続的に改善することにより、成長を促進し、リスクを管理します。


表1は、LLMとKGの潜在的な実用的応用、そしてLLMとKGの相互強化を様々なカテゴリーに分けて示しています。これらの応用は、企業が加盟店業務とリスク管理においてより良い成果と成果を達成するのに役立ちます。


表 1. さまざまな企業のデジタル化シナリオにおける LLM と KG の応用。


一般に、マーチャント運営とリスク管理のアプリケーションシナリオを例にとると、LLM および KG アプリケーションのアルゴリズムタスクは主に 3 つのカテゴリに分けられます。

  • LLM のみの使用: この分野の専門的かつ事実上の要件により、現在、加盟店業務およびリスク管理における LLM について明確に定義され適用可能なシナリオは存在しません。

  • LLM + KGデュアルドライブ:主に知識質問応答やレポート生成などのユーザーインタラクションシナリオに反映されており、例えば前述のAI電話による被害者喚起やマネーロンダリング対策のためのインテリジェントな裁判メッセージ生成などが挙げられます。さらに、知識要素抽出やエンティティチェーンのインデックス作成といった知識構築シナリオもあります。参考文献[8]では、図4に示すように、KG強化LLM、LLM強化KG、LLM+KGフレームワーク連携という3つの側面を含め、LLMとKGのデュアルドライブについて詳細に説明しています。

  • KGのみの使用:推論、分析、知識マイニングなど、複雑な言語インタラクションや意図理解を必要としない意思決定/マイニングシナリオでは、グラフ構造化された知識に基づいて、グラフ表現学習、ルールベース推論、知識クエリが直接実行されます。フレームワークの協調実装により、LLMとKGは二重に駆動され、クロスモーダルな知識整合、論理誘導型知識推論、自然言語による知識クエリをサポートします。これにより、KG知識セマンティクスの統一的な表現と、エンジンフレームワークのシナリオ間転送可能性に対する要求が高まります。


図4. 大規模モデルと知識グラフの相互推進力


ナレッジグラフ技術システムの開発は時代の変化に合わせていく必要があります。

ナレッジグラフ独自の技術フレームワークの発展と、新しい知識データ管理パラダイムと大規模モデルの両輪駆動によって推進されることへの人々の期待は、完全には一致していません。そのため、グラフ技術の開発も時代の変化に対応する必要があります。第一に、統一された産業用知識モデリングフレームワークが不足しています。強いセマンティクスと弱い構造を持つリソース記述フレームワーク/Webオントロジー言語(RDF/OWL)は、長年の開発を経てもエンタープライズレベル/商用アプリケーションで成功を収めていません。一方、強い構造と弱いセマンティクスを持つラベル付きプロパティグラフ(LPG)は、エンタープライズレベルのアプリケーションに選択されています。第二に、統一された技術フレームワーク[2]が不足しており、ドメイン間の移転性が低いです。ツールの数が多く、リンクが複雑なため、各ドメインでのグラフの構築はゼロから始めなければなりません。これら2点に加えて、表2に示すように、他の側面でも大きな技術的課題があります。

表 2. 新しいパラダイムにおけるグラフが直面する技術的な課題。


ナレッジグラフの目標は、機械が理解可能で合理的なデジタル世界を構築し、知識セマンティクスの統一的な表現と、異なるドメインにまたがるナレッジグラフの迅速な構築とシナリオ間の移行を支援する階層的なフレームワーク機能を実現することです。これは、ナレッジグラフの産業化を加速させるプロセスにおいて解決すべき根本的な中核課題です。


SPGベースの産業グレードのナレッジグラフエンジン

Ant Financialのナレッジグラフプラットフォームは、長年にわたり金融セクターのビジネスを支援し、属性グラフベースのセマンティックフレームワークSPGを蓄積・開発してきました。このフレームワークは、LPGの構造的性質とRDFのセマンティック性質を巧みに統合し、RDF/OWLのセマンティックの複雑さが産業アプリケーションに適さないという問題を克服しながら、LPGのシンプルな構造とビッグデータシステムとの互換性といった利点を最大限に活用しています。図5に示すように、このプラットフォームは、以下の3つの次元を通じて知識を定義・表現します。

  • ドメイン タイプ制約: SPG DC に基づいて、ドメイン構造タイプ制約により、動的知識から静的知識まで自動的に階層化できます。

  • ドメインの一意性: SPG Evolving により、ドメイン内の知識が一意であることを保証するために、プログラム可能なチェーン ポインター/正規化機能が提供されます。

  • 知識の依存関係: SPG 推論述語/ロジック システムを通じて知識間の依存関係を定義し、プログラム可能な推論表現を提供します。


図5. SPG知識セマンティックフレームワーク


SPG上に構築されたナレッジエンジンフレームワークは、グラフ構築フェーズでビッグデータアーキテクチャに接続し、データから知識への変換を可能にするだけでなく、ストレージフェーズでは属性グラフに適応し、そのストレージおよびコンピューティング能力を最大限に活用します。推論適用フェーズでは、Knowledge Graph Domain Specific Language(KGDSL)を用いて、フレームワークを機械が理解可能な記号表現に形式化することができ、下流のルールベース推論、ニューラル/シンボリック融合学習、KG2PromptにリンクされたLLM知識抽出/推論をサポートします。さらに、フレームワークの階層化アーキテクチャにより、新しいドメイングラフの構築に必要なのは、スキーマの定義、データの準備、そして生成/推論演算子の開発のみです。これにより、効率的で柔軟性が高く、スケーラブルなナレッジグラフアプリケーションを構築するためのプログラマブルパラダイムが提供されます。


ナレッジグラフ技術は現在、急速な発展期にあり、重要な技術的変曲点を迎えています。統一された技術フレームワークを確立することで、応用の敷居を大幅に下げ、エコシステムの繁栄を促進することができます。この目的のため、私たちはOpenKGと協力し、SPGをベースとしたセマンティック表現およびエンジンフレームワークの立ち上げを加速させています。SPGセマンティックフレームワークのホワイトペーパーv1.0は2023年8月末に公開予定です。皆様のダウンロードと議論をお待ちしております。


この記事の著者について

王浩芬: CCF会員、CCF上海支部事務局長、用語作業委員会副委員長。同済大学百人計画の特別研究員であり、博士課程の指導教員でもある。主な研究分野はナレッジグラフと自然言語処理。連絡先:[email protected]

Lei Liang: CCFプロフェッショナル会員、Ant Groupナレッジエンジン責任者。主な研究分野は、ナレッジグラフ、グラフ学習・推論エンジン、AIエンジニアリング、検索エンジンです。連絡先:[email protected]


[1] Martin S, Szekely B, Allemang D. ナレッジグラフの台頭[R]. O' Reilly, 2021.

[2] 王浩芬、丁俊、胡芳淮、他「大規模エンタープライズレベル知識グラフ実践のレビュー [J]」コンピュータ工学、2020年、46(7):13。

[3] iResearch Consulting. 中国ナレッジグラフ産業調査レポート [OL]. (2022-08-12). https://report.iresearch.cn/report/202208/4043.shtml.

[4] 陸鳳、朱雲強、張学英。時空間知識グラフの研究の進捗と展望[J]。地理情報科学ジャーナル、2023、25(6):1091-1105。

[5] Anthony C, Alvandipour M, Wang D Z. GAP: ナレッジグラフからテキスト生成のためのグラフ対応言語モデルフレームワーク[OL]. (2022-04-13). https://arxiv.org/pdf/2204.06674.pdf.

[6] 白碩. 物事の原理に関する6つの質問と回答 [OL]. 李神テクノロジーレビュー. (2019-07-28). https://mp.weixinqq.com/s/p1h4jhL0esfYi3dOlC9Iwg.

[7] Yang L、Chen H、Li Z、et al. ChatGPTだけでは不十分:事実を考慮した言語モデリングのための知識グラフによる大規模言語モデルの強化[OL]。(2023-06-20). arXivプレプリント arXiv:2306.11489.

[8] Pan S, Luo L, Wang Y, et al. 大規模言語モデルと知識グラフの統合:ロードマップ[OL]. (2023-06-14). arXivプレプリント arXiv:2306.08302.

[9] 王浩芬、王孟「ニューラル+シンボリック」:知識グラフの観点から見た認知推論の発展[J]。中国コンピュータ連盟通信、2020年、16(8)、52-56。