HUOXIU

ナレッジグラフ推論アルゴリズムのレビュー(パート2):セマンティックベースマッチングモデル

背景

ナレッジグラフシステムの構築には、エンジニアリングとアルゴリズムの緊密な連携が不可欠です。エンジニアリングレベルでは、Ant Groupは昨年、OpenKGオープンナレッジグラフコミュニティと共同で、産業グレードのナレッジグラフセマンティクス標準であるOpenSPGをオープンソース化しました。アルゴリズムレベルでは、Ant Groupは知識融合、知識推論、グラフ応用といった分野において、継続的に進歩を続けています。

OpenSPG GitHub、お気軽にスターを付けたりフォローしてください! https://github.com/OpenSPG/openspg

この記事では、ナレッジグラフで一般的に用いられる推論アルゴリズムの概要を説明し、各アルゴリズムの違い、関連性、適用範囲、長所と短所について考察します。ナレッジグラフの計算・推論能力を構築するための思考プロセスを明確にし、ナレッジグラフ推論アルゴリズムを理解したい、あるいは実際に活用する必要がある学生に概要とガイダンスを提供することを目的としています。

ナレッジグラフ推論アルゴリズムのレビュー第1部「距離ベース翻訳モデル」と「グラフ伝播モデル」では、これらのアルゴリズムで使用されている詳細なアルゴリズムについて考察しました。第2部では、セマンティックベースのマッチングモデル、すなわちテンソル分解モデルとニューラルネットワークの種類に焦点を当てます。

ナレッジグラフアルゴリズムの概要

この章では、一般的に使用されるグラフ推論アルゴリズムの概要を説明します。業界には多くのアルゴリズムが存在するため、1つの記事ですべてを網羅することは困難です。そのため、グラフ推論と関連性の高いアルゴリズムを厳選し、類似のアルゴリズムについても代表的なアルゴリズムを取り上げ、各アルゴリズムの機能を可能な限り網羅的に網羅することを目指しました。

  1. 知識融合には、エンティティの調整、属性の融合、関係の検出、類似属性の補完が含まれます。

  2. 知識推論には、リンク予測、属性値予測、イベント分析、接続性分析、類似性分析が含まれます。

まず、マインドマップを使用してこれらのグラフ推論アルゴリズムを要約します。

記号的推論:論理的規則に基づいた推論

  • ルールマイニングのための帰納的推論アルゴリズム
  1. 帰納的手順:FOILルール学習アルゴリズム[1]は、追加された例の正例と負例の数に基づいてFoil_Gain係数を計算し、最大のものを新しいルールとして選択します。
  2. アソシエーションルールマイニング:AMIEルールマイニングアルゴリズム[2] 。エッジ関係ルールを生成することが目的です。エッジの種類に基づいて、考えられるすべてのルールを事前に生成します。次に、グラフ内でルールを裏付ける事実を見つけます。信頼度が閾値に達した場合、ルールは有効であると判断されます。デメリット:データがスパースな場合、使用が困難です。
  3. パスランキングアルゴリズム:PRAパスランキングアルゴリズム[3] 。このアルゴリズムは、各異なるパスの確率を特徴として使用します。パス確率は、パス上の各ステップの結合確率に等しくなります。次に、ロジスティック回帰分類器がトレーニングと予測に使用され、そのトレーニングコーパスは、2点間の各パスの確率です。モデルの予測結果には、分類結果と各パスの重みが含まれており、結果の解釈や補助ルールマイニングに使用できます。欠点:関係に基づく共起統計のこの方法は、データがまばらな場合に適用するのが難しいという問題に直面しています。その後のPRAの改良アルゴリズムには、サンプリング戦略を備えたSFEとマルチタスクカップリングを備えたCPRAがあり、どちらもパフォーマンスが向上しています。
  • 演繹推論アルゴリズムは、ルールマイニングとイベント推論に使用されます。
  1. ルールベースの直接推論。これは決定論的推論にのみ適用され、不確定推論には使用できません。例えば、`marryTo (A,B)` -> `marryTo (B,A)` です。
  2. ベイジアン ネットワークに基づく確率的関係モデルは、条件付き確率を使用して因果関係を表し、グラフ構造を形成します。
  3. マルコフ論理ネットワーク[ 4]は、確率的グラフィカルモデルと一階述語論理を組み合わせた統計的関係学習モデルである。その中核となる考え方は、重みをルールにバインドすることで、一階述語論理ルールの厳しい制約を緩和することである。つまり、一階述語ルールはかつては不可侵だったが、今では確率で記述される。重みは制約の強さを反映している。ルールの重みが大きいほど、制約が強くなる。ルールの重みが無限大に設定されると、ハードルールに退化する。このモデルにおける事実の真理値は0または1である。このモデルはルールを学習(構造学習)、重みを学習し、ルールと重みを使用して未知の事実が真である確率を推測することができる。
  4. 確率的ソフトロジック[5]。マルコフ論理ネットワークのアップグレード版です。最大の違いは、事実の真理値が区間[0,1]内の任意の値をとることができることです。マルコフ論理ネットワークの不確実性処理能力をさらに強化し、不確実なルールと事実を同時にモデル化できます。さらに、連続的な真理値の導入により、元の離散最適化問題から連続最適化問題への推論が簡素化され、推論効率が大幅に向上します。連続値であるため、「AND、OR、NOT」ルールは一連の式によって具体的に定義されます。

数値推論:知識グラフ埋め込みに基づく推論

知識グラフ埋め込み(KEP)は、知識グラフ内のエンティティと関係性を学習し、グラフの元の構造と意味情報を保持しながら低次元ベクトルを取得する手法です。したがって、優れたエンティティベクトルセットは、エンティティ間の関係性を完全に表現できます。ほとんどの機械学習アルゴリズムは低次元ベクトル入力を容易に処理できるため、リンク予測、分類、属性値計算、類似度計算など、最も一般的なタスクに適用できます。これには、距離ベースの翻訳モデル、グラフ伝播ベースのモデル、意味ベースのマッチングモデルが含まれます。本稿では、意味ベースのマッチングモデルに焦点を当てます。

意味ベースのマッチングモデル

これらのモデルは、類似度に基づくスコアリング関数を用いてトリプルの確率を評価し、エンティティと関係を潜在的意味空間にマッピングすることで類似度を測定します。これらの手法は2つのカテゴリーに分類されます。1つはRESCALテンソル分解モデルやその派生モデルなどの単純なマッチングモデル、もう1つはSME(構造化エミュレータ)、NTN(ニューラルテンソルネットワーク)、MLP(平均水準プログラミング)、NAM(ニューラルアンプリファイア)などのディープニューラルネットワークです。

詳細なアルゴリズム分析

意味ベースのマッチングモデル - テンソル分解モデル

再スケール

Transシリーズのアルゴリズムは、ヘッドノードへの関係の影響を表現するために加算を使用していますが、RESCAL [14]は、回転と伸縮を使用してヘッドノードへの関係の影響を表現しています。回転と伸縮の操作は、数学的に行列Mrに掛けられます。RESCALテンソル分解アルゴリズム、知識グラフ全体を大きなテンソルとして扱い、テンソル分解技術によってそれを複数の小さなテンソル片に分解します。つまり、高次元の知識グラフに対して次元削減処理を実行し、計算中にデータ規模を大幅に削減します。テンソル構築の基本的な方法は、エンティティiとエンティティjに関係kがある場合、そうでない場合は0であるというものです。

その目的関数は次のようになります(ベクトルの内積の一種)。

分散マルチ

DistMult [15]は、行列Mrの代わりに対角行列diag(r)を用いてRESCALのパラメータ空間を縮小するこれはTransHとTransEの関係に似ている。その目的関数は以下の通りである。

対角行列 diag(r) が使用され、h と t は交換後に等しくなるため (下の式を参照)、DistMult は「A - クラスメート - B」などの対称関係のみを処理でき、「A - 父親 - B」などの非対称関係は処理できないことに注意することが重要です。

HolE [16]は、RESCALのパラメータ空間を削減しながら非対称関係を扱うために開発された。この手法は、まず高速フーリエ変換を用いてヘッドベクトルとテールベクトルをiビットずつシフトし、その後内積演算を行う。ヘッドベクトルとテールベクトルのシフトビット数が異なるため、対称性が破れ、非対称関係を扱うことができる。その目的関数は以下の通りである。

複雑な

ComplEx [17]と HolE は、RESCAL のパラメータ空間を縮小しつつ、非対称関係を扱えるようにするという共通の目標を共有しています。ComplEx は複素アプローチを採用し、実部と虚部の両方を含むように拡張することで自由度を高め、非対称関係を解くことができます。その目的関数は以下のとおりです。

類推

ANALOGY [18]、より良い結果を得るために、DistMult、HolE、ComplExの3種類のモデルを統合しています。

意味ベースのマッチングモデル - ニューラルネットワーク型

中小企業

SME [19]は、ディープニューラルネットワークを用いてh、r、tをネットワークに入力する2値分類モデルを構築した。まず、隠れ層g_ug_vはそれぞれhとr、tとrを結合する。次に、出力層でこれら2つの結果の内積を計算し、スコアを求める。知識グラフに(h, r, t)が実際に存在する場合、確率は1に近い値になるはずである。存在しない場合、確率は0に近い値になるはずである。スコアリング関数は以下の通りである。

隠れ層 g <sub>u</sub>と g <sub>v </sub> は、それぞれ h と r、t と r を結合します。2つのバージョンがあり、そのうちの1つは線形バージョンです。

もう 1 つは双線形バージョンです。

NTN

NTN [20]は別のタイプのニューラルネットワーク構造である。SMEの平坦化構造とは異なり、NTNはまず隠れ層でhとtを結合し、活性化関数tanhを通過させた後、出力層で関係ベクトルrと結合する。スコアリング関数は以下の通りである。

MLP

MLP [21]モデルはより単純である。h、r、tは入力層で結合され、活性化関数tanhを通過して重みM1 M2 M3を持つ非線形隠れ層を得る最後に重みwを持つ線形出力層を通過する。スコアリング関数は以下の通りである。

ナム

NAM [22]、まず入力層を通してhとrを結合し、次に多層DNNを隠れ層として使用し、最初の層はz ( )である

スコアリング関数は次のとおりです。

2種類の損失

  • 物流損失

ロジスティック損失はRESCALシリーズモデルに適しています。これはClose World仮定に基づいており、観測されていないトリプルは無効とみなされます。正しいトリプルには報酬が与えられ、誤ったトリプルにはペナルティが課されます。

  • ペアワイズランキング損失

ペアワイズランキング損失は、トランスシリーズモデルに適しています。これはオープンワールド仮定に基づいており、観測されていないトリプルを潜在的に無効とみなします。ファクトトリプルと観測されていないトリプルを可能な限り距離によって分離します。

ここでは、正のトリプレットと負のトリプレットを分離するために使用される一定のマージンが指定されています。は正のサンプルのスコアであり、 は負のサンプルのスコアです。

  • 初期化

上記のアルゴリズムはすべてデフォルトでランダムに初期化されます。初期化には柔軟性があり、例えば外部の知識ソースを事前学習に利用することも可能です。

応用

  • リンク予測

3 つの組み合わせ (h、r、t) のうちの 2 つが与えられた場合、3 つ目を予測します。

評価指標には以下が含まれます。

    • MR (平均ランク) は、特定のランクに対して予測される平均値です。
    • MRR (平均逆順位) は、ソートされた順位の逆数の平均です。
    • ヒット数 @N   Nより高いソートの割合
    • AUC-PR  適合率・再現率曲線の下の領域
  • トリプル分類

与えられた 3 つの要素 (h、r、t) が真か偽かを判断します。

  • エンティティ分類

ここで使用される手法は、エンティティの分類が「Is A」関係の検出に変換されるというものです。

  • エンティティの曖昧性解消

2 つのエンティティのベクトルが等しい場合、それらは同じエンティティであると判断されます。

Trans、Rescual、SMEシリーズのモデルは、パラメータ数がノード数に比例するため、大規模なグラフ推論には不十分となることがよくあります。この難点を克服するために、グラフニューラルネットワーク(GNN)が導入されました。GNNはその後、包括的なシステムへと進化しており、本稿ではGCN、GAT、Structure2vec、GeniePathなどのアルゴリズムについても後ほど解説します。GNNアルゴリズムはパラメータを共有することでパラメータ空間を削減するため、大規模なグラフ推論に適しています。

文献では上記のアルゴリズムを下の表にまとめており、上記のアルゴリズムのエンティティと関係の埋め込みベクトル、スコアリング関数、制約情報の表現は次のように整理されています。

まとめ

アルゴリズム分類の観点から

教師なし学習: Deepwalk、Node2Vec、Metapath2vec、LINE、Louvain

教師あり学習: GCN (半教師あり学習)、GraphSAGE、SDNE (半教師あり学習)、GeniePath、GAT、Structure2Vec、HeGNN

アプリケーションの観点から

リンク予測:すべての埋め込みアルゴリズムはリンク予測をサポートしています。ただし、同種グラフモデルは1種類の関係予測をサポートするのに対し、異種グラフモデルは複数の関係予測をサポートするという違いがあります。(さらに、ALPSプラットフォームにはまだ含まれていませんが、transシリーズもリンク予測を実行できます。)

エンティティ正規化(類似度計算):すべての埋め込みアルゴリズムは類似度計算をサポートしています。類似度は特定のタスク目標によって定義され、損失に反映されます。一般的なタスク目標には、距離類似度(2つのノードが何次接続されているか)、構造類似度、ノードタイプ類似度(ラベル予測)などがあります。

属性値予測(ラベル予測):GCN、GraphSAGE、GeniePath、GAT、Structure2Vec、HeGNN など。

  • 異種グラフをサポート: HeGNN、metaPath2vec、KGNN

  • 同次グラフをサポート: Deepwalk、Node2Vec、LINE、SDNE、GCN、GraphSAGE、GeniePath、GAT、Structure2Vec

今後も、SPG および SPG + LLM デュアルドライブ アーキテクチャとそのアプリケーションに関する最新情報を共有していきます。

公式サイトをご覧ください: https://spg.openkg.cn/

Github: https://github.com/OpenSPG/openspg