|
この記事は、北京で開催されたTuGraphミートアップにおいて、Antグループの開発エンジニアである王少飛氏が行った講演に基づいています。主に、金融分野における長年のビジネス経験に基づいて蓄積されたAntのナレッジグラフプラットフォームの知識セマンティック拡張プログラマブルフレームワークSPGと、グラフ推論プロセスにおける実行エンジンとしてのTuGraphの役割について紹介しています。 著者について:王少飛は、アント・ファイナンシャルのナレッジグラフ推論開発エンジニアです。コア開発者として、推論エンジンの構築に最初から携わり、現在はOpenSPG-Reasonerモジュールのオープンソース化とメンテナンスを担当しています。 🌟OpenSPG GitHub、お気軽にスターを付けてフォローしてください! https://github.com/OpenSPG/openspg ナレッジグラフの開発段階とトレンド構造化されたセマンティック知識ベースであるナレッジグラフは、現実世界のオブジェクトとそれらの間の複雑な関係を記述およびモデル化するために使用されます。その発展は、一般ナレッジグラフ段階、ドメインナレッジグラフ段階、そして大規模モデルとの統合段階という3つの段階に要約できます。 - 一般知識グラフ段階: この段階では、主にオープンデータセットから SPG (主語-述語-目的語) トリプルを抽出して静的知識ベースを構築し、検索推奨の精度とユーザーエクスペリエンスを向上させることに焦点を当てます。
- ドメイン知識グラフ段階: 知識獲得方法はオープンサポートドメインからクローズドサポートドメインに移行し、専門家の経験ルールを統合して、主にリスク管理や信用などのシナリオで専門分野の希少な知識をマイニングすることを目指します。
- エンタープライズ レベルの知識管理: 現在の段階では、大規模なモデルと組み合わせて、知識グラフの目標は、知識の標準化、ドメイン間のデータの相互接続と再利用などの問題に重点を置くようになりました。
静的な常識から深い文脈へ:この分野が進化するにつれ、推論プロセス中にテキスト情報、概念、あるいは取引や社会的相互作用といったエンティティ間の関係性を単純に追加するだけでは、推論の有効性は大幅に向上しなくなります。その代わりに、エンティティに関する多要素情報の深い相乗効果に重点が移り、疎なエンティティ間の暗黙的な意味的つながりを明らかにし、意味的に解釈可能な密度を実現します。 SPGセマンティック拡張複雑な技術を大規模に産業応用するには、複雑な技術的詳細を隠蔽し、シナリオ間の移植性を実現して新規ビジネスの迅速な展開を支援する、統一された技術フレームワークが必要です。Ant FinancialのKnowledge Graphチームは、長年のビジネス経験に基づき、新世代の知識セマンティックフレームワークであるSPGを提案し、オープンソース化しました。SPGは、LPGの構造的性質とRDFのセマンティック性質を最大限に活用することで、プログラム可能な知識エンジンアーキテクチャを実現し、様々な分野にまたがる知識グラフの効率的な構築と、分野間の知識セマンティックアライメントをサポートします。 SPG ナレッジ グラフのメイン モデルのセマンティック拡張は、主に次の点で業界の主流の方法と異なります。 - 知識は次のように定義されます。知識は、エンティティ、コンセプト、イベントの3つのカテゴリに分類されます。エンティティは、ビジネスオペレーションに密接に関連する客観的なインスタンスであり、属性記述(ユーザーや企業など)を通じて記述およびプロファイル化できます。コンセプトは、特定のものから一般的なものへの抽象化であり、一連のエンティティを記述します。比較的静的で、強い一般化があります。イベントは、業界イベント、企業イベント、医療イベントなど、時空間的な制約を持つエンティティタイプです。
- セマンティック拡張の図解:従来の属性グラフは、エンティティの単純なテキスト属性をセマンティックに拡張することで修正されます。例えば、「店舗」の「省」や「市」といった一般的な属性チェーンは、特定の概念にリンクされ、階層的な関係が確立されます。また、メールアドレスとその特定の形式は標準化され、標準エンティティに変換されます。これにより、エンティティ属性の深い理解と効果的な関連付けが実現されます。
SPGの能力進化とアップグレード SPG 機能の進化とグレード分けは 5 つの段階で構成され、機能が徐々に増加し、互換性が徐々に向上します。 - 互換モード: ビッグ データ システム内の構造化データと非構造化データの両方から単純な属性グラフを迅速に作成し、グラフ推論機能を使用できるようにすることが目標です。
- ドメインモデル制約:スキーマ制約を追加することで、通常の属性を何らかの概念や標準エンティティに抽象化します。これにより、これらの主要属性はもはや単純な属性ではなく、特定の概念に関連付けられます。
- データから知識への反復的な進化:継続的な反復により、チェーン参照と融合演算子が追加されることでサブジェクトが強化され、サブジェクト間のより豊かな意味関係が明らかになります。例えば、ナレッジグラフに既に存在するストアと、別のドメインで記述または抽象化されたストアは、同じストアである可能性があります。同じエンティティ内の不整合を排除するために、組み込みの融合演算子(fuseOp)が追加され、単一のエンティティにマージされます。
- 述語意味論と論理記号:嗜好などの述語を抽象化するためには、従来の属性グラフでは単純な属性として扱われます。この属性をカテゴリという概念に抽象化します。カテゴリの下には「成都のホットポット」があるかもしれないので、そこにエッジをリンクします。ユーザーからカテゴリへのエッジもあるかもしれません。このように、リンク手法を用いることで、よりファジーな推論やレコメンデーションが可能になります。
- 記号的記述段階:述語間の関係を定義します。例えば、2つの述語間の相互対立関係と相互排他関係を定義できます。記号表現を通して論理規則を定義し、推論を実行します。
TuGraph による SPG グラフ推論の強化 TuGraph の機能は、ナレッジグラフ推論にどのように活用できるでしょうか。まず、ナレッジ推論では、OpenSPG ロジックルール実行エンジンが活用されます。これは、大きく分けて次の 3 つの部分に分けられます。 - 最上層はユーザー入力用で、カスタム シンボル KGDSL を使用して入力できます。また、ISO インターフェイス標準入力も受け入れます。
- 中間層は、解析、コンパイル、最適化のプロセスであり、Lubeを使用して最終的な実行プランに解析および最適化できます。右側のカタログは、コンパイルまたは解析プロセス中の述語、イベント概念、およびモデル全体を管理します。
- 最下層のアダプターは、TuGraph-Analytics または TuGraph-db に接続できます。
グラフ推論では、アプリケーションは主にオンライン分析処理 (OLAP) とオフライン シナリオに分けられます。 - OLAPシナリオ:OLAPシナリオでは、TuGraphはCypherに類似したクエリ言語を提供します。まず、ユーザーはスキーマを使用してデータをモデル化した後、必要なデータをTuGraph-dbにインポートします。次に、入力されたクエリごとに推論エンジンがコンパイルおよび最適化し、ISO-GQLを生成します。最後に、TuGraph-dbとの通信を通じて、クエリまたは変更ターゲットが完了します。
- オフラインシナリオ:オフラインシナリオでは、ユーザーはTuGraphが提供する計算プログラミングフレームワークを使用して、カスタム演算子を埋め込むことでSPG機能をサポートできます。このプロセス全体を通して、ユーザーはオフラインタスクを作成し、ルールパーサーによって解析されて実行プランを生成する必要があります。その後、各実行プランに対して対応する操作(OP)が実行されます。アダプターに応じて、各TuGraph OPの実装が生成されます。これらはコンパイルされ、プラグインにパッケージ化され、TuGraph-Analytics-Engineに送信されて実行され、最終的にステップバイステップの推論結果が生成されます。左側には、提供されているすべてのOPのリストが表示されています。最終的には、TuGraph-Analyticsのノード管理、データ管理、データ計算機能など、いくつかの機能を活用します。
SPG ナレッジ グラフ セマンティック フレームワークは、独自のセマンティック強化方法と機能進化メカニズムを備え、TuGraph プラットフォームの強力な機能と組み合わされて、ナレッジ グラフの構築、推論、および適用を強力にサポートし、現代のナレッジ グラフ テクノロジの開発動向とアプリケーション シナリオの要件に適応します。 私たちに従ってください公式サイトをご覧ください:spg.openkg.cn/ Github: github.com/OpenSPG/ope… SPGナレッジグラフプラットフォームは、SPGおよびSPG + LLMデュアルドライブアーキテクチャとそのアプリケーションの最新開発情報を共有することを目的としています。QRコードをスキャンしてお気軽にフォローしてください!
|