HUOXIU

因果推論においてデータをより有効に活用するにはどうすればよいでしょうか?

はじめに: DataFunコミュニティから転載されたこの記事は、「因果推論におけるデータ活用の改善方法」と題されており、主にチームが最近発表した因果関係に関する研究成果を紹介しています。本稿では、より多くのデータを活用して因果推論を改善する方法を、2つの側面から紹介します。1つは、過去のコントロールデータを用いて交絡バイアスを明示的に軽減する方法、もう1つは、複数ソースのデータ融合に基づく因果推論です。

チームの作業の一部は OpenASCE プロジェクトでオープンソース化されており、GitHub で入手できます: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

完全な目次:

  • 因果推論の背景
  • 修正因果樹GBCT
  • 因果データ融合
  • Ant Groupのビジネスアプリケーションでは

ゲストスピーカー:Ant Groupのアルゴリズム専門家、Cui Qing博士

編集・編纂:Yooki、華中科技大学

コミュニティ制作 | DataFun


01

因果推論の背景

一般的な機械学習の予測問題は通常、同じシステム内で設定され、多くの場合、独立かつ同一分布に従うシステムを前提としています。例えば、喫煙者の肺がん発生確率の予測や画像分類などが挙げられます。一方、因果関係の問題は、データの根底にあるメカニズムに関係します。よくある質問として、「喫煙は肺がんを引き起こすのか?」というものがありますが、これらは因果関係の問題です。

因果効果を推定する問題には、非常に重要な 2 種類のデータがあります。1 つは観察データであり、もう 1 つはランダム化比較試験によって生成された実験データです。

  • 観察データとは、私たちの日常生活や製品から蓄積されたデータを指します。例えば、喫煙データの場合、喫煙を楽しむ人もいれば、喫煙者に関する関連情報が含まれている人もいます。そして、喫煙者の中には最終的にがんを発症する人もいます。機械学習の予測問題では、条件付き確率P(肺がん|喫煙)を推定します。つまり、喫煙という条件を与えられた場合、観察対象の喫煙者が肺がんを発症する確率です。上記の観察データにおいて、喫煙の分布は実際にはランダムではありません。喫煙の好みは人それぞれ異なり、環境の影響も受けます。
  • 因果関係に関する疑問に答える最良の方法は、ランダム化比較試験(RCT)です。実験データは、治療の割り当てがランダム化されるRCTによって得られます。例えば、喫煙が肺がんを引き起こすかどうかを判断するには、まず十分な人数の人々を集め、そのうちの半数に喫煙を強制し、残りの半数に禁煙を強制し、両グループにおける肺がん発症の確率を観察する必要があります。倫理的または政策的な制約によりRCTが不可能な場合もありますが、検索エンジン最適化(SEO)におけるA/Bテストなど、特定の分野では依然として実行可能です。

因果推定問題E(Y|do(X))と従来の予測問題または分類問題E(Y|X)の主な違いは、ジュディ・パールが提唱した介入記法「do」の存在にあります。これは、介入によって変数Xを特定の値に強制するものです。本報告書は、主に観測データから因果効果を推定することに焦点を当てています。

因果推論において、データをどのようにより有効に活用できるでしょうか?本レポートでは、2つのチームによって最近発表された2つの論文を例に挙げ、このトピックを紹介します。

  • 最初の課題は、過去の比較データをより有効に活用することです。例えば、ある時点で大規模なマーケティングプロモーションを実施する場合、その時点より前を「介入前」、その時点より後を「介入後」と呼びます。介入開始前に実際の効果を把握し、次の意思決定に役立てたいと考えています。このマーケティングキャンペーン開​​始前には、過去のユーザーパフォーマンスデータがありました。最初の課題は主に、「介入前」データを効果的に活用し、データ修正を支援し、介入の効果をより適切に評価する方法を紹介することです。
  • 2つ目の論文では、主に多元的かつ異種的なデータをどのように活用するかについて紹介します。機械学習では、ドメイン適応や転移学習といった類似の問題が頻繁に発生します。本日の報告では、多元的かつ異種的なデータの活用を因果関係の観点から考察します。具体的には、複数のデータソースが利用可能な場合に因果効果をより適切に推定する方法です。

02

修正因果樹 GBCT

1. 従来の因果関係ツリー

ツリー アルゴリズムは主に 2 つのモジュールで構成されます。

  • 分割基準: 分割基準に従ってノードを 2 つの子ノードに分割します。
  • パラメータ推定: 分割プロセスが完了した後、たとえば、分割が最終的に停止すると、パラメータ推定手法を使用して、新しいサンプルまたは母集団の因果効果がリーフ ノードで予測されます。

従来の因果木アルゴリズムの中には、因果効果の異質性に基づいて分割を行うものがあります。基本的な考え方は、分割後の左右の子ノードの因果効果が有意に異なることを期待し、分割を通じて異なるデータ分布における因果効果の異質性を捉えることです。

従来の因果ツリーの分割基準、例:

  • アップリフトツリーの分割基準は、左右の子ノード間の因果効果の差を最大化することです。この差は、ユークリッド距離やKLダイバージェンスなどの距離指標を用いて測定されます。
  • 因果木の分割基準は、因果効果の二乗を最大化すると直感的に解釈できます。この分割基準は、葉ノードにおける因果効果の分散を最大化するのと等価であることが数学的に証明されています。

パラメータ推定の一般的なアプローチは、分岐後のリーフノードにおける実験群の平均結果から対照群の平均結果を直接差し引き、これを因果効果の推定値として使用することである。ランダム化比較試験では、治療の割り当てメカニズムはランダム化され、その結果得られる平均差が因果効果となる。ランダム割り当てメカニズムにより、実験群と対照群のデータ分布が同じ、すなわち均質であることが保証される。

因果木において、分割によって子ノードが得られる場合、分割によって得られる左と右の子ノードの分布が均一であることが保証できますか?

2. 修正因果樹(GBCT)

従来の因果木やアップリフト木では、分岐後の左右の子ノードの分布が均一であることを保証できません。そのため、前のセクションで述べた従来の推定法では…

それは偏っています。

本研究では、治療群における平均因果効果CATTの推定に焦点を当てています。CATTは以下のように定義されます。

さらに、従来の因果効果の推定は、次の 2 つの部分に分けられます。

選択バイアス(または交絡バイアス)は次のように定義できます。

直感的に言えば、これは対照群の治療効果=0の推定値から、実験群の治療効果=0の推定値を差し引くことを意味します。従来の因果樹では、このバイアスは考慮されておらず、選択バイアスが推定値に影響を与え、最終的な推定値にバイアスが生じる可能性があります。

私たちのアプローチは、製品またはプラットフォームに蓄積された過去の比較データを活用し、選択バイアスを明確に低減することです。これは、以下の2つの仮定に基づいています。

  • 仮説1:介入前(処置=0)の実験群と対照群の結果は観察可能である。金融融資商品におけるクレジットカードの限度額引き上げを例に挙げると、限度額引き上げ前の利用者の通常の利用行動を観察することができる。つまり、限度額引き上げ前(処置=0)の実験群と対照群の結果は観察可能である。
  • 仮定2:結果yは介入前後で一定の連続性を維持すると仮定する。直感的には、これは介入前後でユーザーまたはグループの行動の変化がそれほど劇的ではないことを意味します。

具体的な手順:

① 分割基準

  • 分岐基準の最初の部分は従来の因果ツリーのものと似ており、履歴データの結果を当てはめることでエクスペリエンスロスを削減します。例えば、クレジット限度額の増額がない場合のユーザー行動を関数を通して当てはめます。
  • 分割基準の2番目の部分では、混同エントロピーを使用します。混同エントロピーは平均二乗誤差と比較して、より高次の情報を捉えます。式:

直感的に理解すると、実験群では対照群のモデルが推定に用いられ、対照群では実験群のモデルが推定に用いられます。これら2つの部分の推定値は可能な限り近い値に調整され、実験群と対照群の分布が可能な限り一致するようになります。混同エントロピーの利用は、本研究の主要な貢献の一つです。

  • 最終的な損失は、上記の2つの部分の加重和です。損失は主に介入前のデータを使用することに注意してください(経験的損失部分は介入後のデータもフィッティングに使用します)。つまり、介入前のデータは補助的な補正に使用されます。

②パラメータ推定

  • パラメータ推定では、介入後(t≥τ)のデータを用いて因果効果を推定します。介入前データを用いてバイアスを補正することで、まずツリー構造が得られます。そして、介入後データをリーフノードで用いて因果効果を推定します。介入前データを用いて明示的なバイアス補正が行われるため、介入後データを用いて得られる推定値はより正確になります。
  • (PPT右側)右図に示すように、黄色の線は実験群、青色の線は対照群を表しています。ビジネス戦略によっては、実験群と対照群がランダムに割り当てられず、分布に大きな差が生じる場合があります。GBCT補正後、介入前のリーフノードにおける実験群と対照群のデータ分布はほぼ一致し、ランダム化比較実験をシミュレートしたのと同様の効果が得られます。したがって、介入後のデータを用いて因果効果(黄色の線の下の面積から青色の線の下の面積を差し引いた値)を推定する方がより正確になります。

従来のツリーモデルアンサンブルには、バギングやブースティングといった手法が含まれます。アップリフトフォレストまたは因果フォレストは、アンサンブルにバギング手法を使用します。アップリフトフォレストアンサンブルは直接加算によって実現されますが、因果フォレストアンサンブルでは損失関数を解く必要があります。

GBCTには明示的な修正モジュールが含まれているため、ブースティング法を用いた統合をサポートしています。基本的な考え方はブースティングに似ています。最初のツリーを修正した後、2番目のツリーを修正し、3番目のツリーを修正する、というように繰り返していきます。

実験は2つの部分から構成されています。

① シミュレーション実験。グラウンドトゥルースを含むシミュレーション実験において、GBCT法の有効性を検証した。シミュレーションデータ生成は2つの部分から構成されていた(表の最初の列Φは選択バイアスを表し、Φ値が大きいほど選択バイアスが強いことを示している。表の値はMAEを表し、MAE値が小さいほど手法が優れていることを示している)。

  • 最初の部分では、観測された交絡変数を検証します。すべての交絡変数を観測した上で、このセクションではGBCT法が従来の手法よりも堅牢であるかどうかを検証します。表のデータは、選択バイアスが大きいほど、従来の手法(メタ学習器、因果フォレストなど)のパフォーマンスが低下することを示しています。
  • 2つ目の部分は、観測されない交絡変数に関係します。この場合、多くの従来の手法ではパフォーマンスが著しく低下します。しかし、GBCTは観測されない交絡変数が存在する場合でも比較的安定したパフォーマンスを示し、他の手法よりも一貫して優れた結果を示しています。
  • 表の最後の 2 つの列 (GBCT-ND、GBCT-B) はアブレーション実験であり、一部のモジュールが削除された GBCT の弱体化バージョンであるため、提案された各モジュールが有用であることを示しています。

② 実際のクレジットカード限度額増額データ。ランダム化比較実験を実施し、この実験に基づいてバイアスデータを構築した。様々な設定において、GBCT法は一貫して従来の手法よりも優れた性能を示し、特にバイアスデータにおいては従来の手法を著しく上回った。

03

因果データ融合

2 番目のタスクは因果データの融合です。これは、複数のデータ ソースが利用可能な場合に因果効果をより適切に推定する方法です。

主要な記号:複数のデータソースを表します。Yはアウトカム、Aは治療、Xは関心のある共変量、Zは各データソース(ドメイン)におけるX以外の共変量、Sはドメイン指標、μは潜在的なアウトカムの期待値です。アウトカムは以下の式に分解されます。

目的関数δは、各ドメインにおける因果効果を推定するために使用されます。さらに、ニューサンス関数には、主効果、傾向スコア、ドメイン傾向スコア、および効果の分散が含まれます。

メタ学習者などの従来の手法では、データが同じソースから取得されていること、つまり分布が一貫していることを前提としています。従来のデータ融合手法の中には、ドメインをまたぐ集団間の異質性を扱うことができるものもありますが、ドメインをまたぐ介入結果や因果効果の異質性を明示的に捉えることはできません。私たちの研究は主に、ドメインをまたぐ介入結果や因果効果の異質性など、より複雑なドメイン間の異質性に取り組んでいます。

WMDLアルゴリズムのフレームワーク図は上記に示されています。主なモジュールは次のとおりです。

  • 傾向スコア
  • 結果モデル
  • 因果情報を考慮した重み付けモジュール

3つのモジュールを組み合わせることで最終的な推定値が得られます。WMDLアルゴリズムの3つの特徴は次のとおりです。

  • さまざまなレベルのドメインにわたる異質性をどのように特徴付けるか?
  • より多くの情報を活用するための重み付けモジュールの設計方法
  • 二重ロバスト推定値を得る方法

本研究では、実験群と対照群の結果を推定し、それらを差し引いて因果効果の推定値を得るのではなく、因果効果を直接推定する、すなわち直接学習を採用した。直接学習の利点は、実験群と対照群における高周波ノイズ信号を回避できることである。

左側では、複数のドメインにわたって因果効果は同じであるが、その結果は異質である可能性があると想定しています。右側では、因果効果は各ドメイン間で異なる、つまり共変量が同じであっても、因果効果は異なるドメイン間で異なると想定しています。

この式は分解式から導出されます。結果Yから主効果を差し引いた値から処置効果を割るとI(X)が推定され、最適解はδ(X)となります。

分子は因果情報を考慮した重み付けモジュールであり、これについては後述しますが、本研究の大きな貢献です。分母はダブルロバスト法の傾向スコアに似ていますが、本研究ではドメイン情報も考慮します。異なるドメイン間の因果効果が異なる場合は、ドメイン指標情報も考慮されます。

この作業の利点は3つあります。

① 異なるデザインを使用することで、介入結果の異質性だけでなく、因果効果間の異質性にも対処できます。

② 二重の頑健性という特性を持つ。論文では、当該ドメインの傾向スコアモデルまたは主効果モデルの推定値が偏りがなければ、最終的な推定値も偏りがないことが証明されている(実際の状況はもう少し複雑であり、詳細は論文を参照)。

③ 本研究では、主にセミパラメトリックモデルフレームワークを設計しました。モデルの各モジュールは任意の機械学習モデルを使用でき、モデル全体をニューラルネットワークに設計することで、エンドツーエンドの学習を実現できます。

重み付けモジュールは、統計学における効率性限界理論から派生したものです。主に以下の2つの情報が含まれています。

ドメイン間の分布の違いを調整し、変換するためのモジュールです。

これは因果関係に関する情報を含むモジュールです。左側の3つの図は理解を助けるでしょう。ソースドメインとターゲットドメインの分布に有意な差がある場合、ターゲットドメインに近いサンプルに高い重みが与えられます。

② 分母に傾向スコア関数を設計することで、実験群と対照群の間で重複するサンプルに大きな重みが与えられる。

③ Vを使用してデータ内のノイズを特徴付けます。ノイズは分母にあるため、ノイズの少ないサンプルには大きな重みが与えられます。

上記の 3 つの部分を巧みに組み合わせることで、異なるドメイン間の分布の違いと異なる因果情報の現れを、統一されたドメインにマッピングすることができます。

因果効果が均質か異質かに関わらず、WMDL(重み付きマルチドメイン直接学習)法は良好なパフォーマンスを示します。右図は重み付けモジュールのアブレーション実験を示しており、その有効性を示しています。まとめると、WMDL法は推定分散が比較的小さいため、他の手法よりも一貫して優れたパフォーマンスを示します。

04

Ant Groupのビジネスアプリケーションでは

金融信用リスク管理シナリオでは、信用限度額の引き上げや金利の引き下げといった介入は、残高やリスクの変化といった望ましい効果を達成することを目的としています。実際のシナリオでは、GBCTの是正措置は、信用限度額の引き上げ前の一定期間の過去の実績を活用します(引き上げ前の実験グループとコントロールグループの状態が利用可能です)。この履歴情報により、明示的な修正が可能になり、介入後の推定がより正確になります。GBCTはサブノードに分割され、介入前の行動を整合させることで、介入後の因果効果の推定を容易にします。グラフ(修正後)では、赤は信用限度額引き上げグループ、青は引き上げなしのグループ、中央の灰色の領域は推定される因果効果を表しています。GBCTは、よりインテリジェントな意思決定を行い、信用商品のバランスとリスクを管理するのに役立ちます。

05

質疑応答セッション

Q1: GBCT 補正と二重差分法 (DID) の類似点と相違点は何ですか?

A1: GBCT補正の主な考え方は、過去の対照情報を利用して選択バイアスを明示的に低減することです。GBCT法とDID(Difference-in-Differences)法には、類似点と相違点があります。

  • 共通点は、どちらも履歴情報を活用していることです。
  • 両者の違いは、過去の情報をどのように扱うかにあります。DIDは、過去のデータにおいて実験群と対照群の間に一定のギャップがあると仮定し、予測時にこのギャップを差し引きます。選択バイアスのため、実験群と対照群の割り当てはランダムではありません。GBCTは、補正法を用いて過去の実験群と対照群を整合させます。

Q2: GBCTは、観測されていない交絡変数に対して優れたパフォーマンスを発揮します。このことについて、より直感的な説明は何でしょうか?

A2: すべての交絡変数が観測されている場合、無視可能性の仮定は満たされます。選択バイアスは明示的に低減されないものの、従来の手法を用いて実験群と対照群をある程度整合させることができます。実験では、GBCTの方がわずかに優れたパフォーマンスを示し、明示的な補正によって結果がより安定することが示されています。

観測されない交絡変数が存在すると仮定します。このようなシナリオは現実世界では非常に一般的であり、過去のコントロールデータにも観測されない交絡変数が存在します。例えば、クレジット限度額の引き上げ前の家族状況や収入の変化は観測できないかもしれませんが、ユーザーの金融行動は過去のデータに既に反映されています。交絡エントロピーなどの過去のパフォーマンス情報を用いることで、選択バイアスを明示的に低減したいと考えています。これにより、ツリーが分岐する際に、分岐した子ノードにおいて交絡変数間の異質性が特徴付けられます。子ノードでは、観測されない交絡変数が類似している可能性が高く、したがって推定される因果効果は比較的正確になります。

Q3: GBCT と Double Machine Learning (DML) を比較しましたか?

A3: 比較を行いました。Double Machine Learningはセミパラメトリックな手法です。私たちの研究はツリーベースの手法に重点を置いているため、ベース学習器はすべてツリーまたはフォレスト関連の手法を採用しています。表のDML-RFは、ランダムフォレストのDouble Machine Learning版です。

DMLと比較して、GBCTは主に過去の対照データをどのように活用するかに焦点を当てています。GBCTの対照法では、過去のアウトカムが共変量として直接扱われますが、このアプローチでは明らかに情報が効果的に活用されていません。

Q4: ビジネスにおいて同様の問題に遭遇する可能性があるのは、オフラインオペレーションに選択バイアスが生じる可能性があることです。しかし、オンラインバイアスはオフラインバイアスから乖離する可能性があります。この場合、オフラインのパフォーマンスを評価する際に、オフライン効果を正確に推定することが不可能になる可能性があります。

A4: これは金融分野において非常に根本的な問題です。検索エンジンマーケティングでは、オンライン学習やA/Bテストを通じてオフラインとオンラインの手法の違いをある程度克服できますが、金融分野ではポリシー上の制約によりオンラインでの実験が容易ではありません。さらに、パフォーマンスの観察期間は通常長く、例えばクレジット商品のユーザーフィードバックを観察するには少なくとも1ヶ月の観察が必要です。そのため、この問題を完全に解決することは現実的に非常に困難です。

私たちは通常、以下のアプローチを採用しています。オフライン評価では、異なる期間(OOT)のテストデータを用いて、パフォーマンスの堅牢性を検証・観察します。テストパフォーマンスが比較的安定している場合、オンラインパフォーマンスも良好であると信じる根拠が高まります。

参考文献

[1] Tang、CZ、Wang、H.、Li、https://openreview.net/forum?id=B26CPuYw9VA

[2] 李、

本日のシェアはこれで終了です。皆様ありがとうございました。


|スピーカー|

崔青博士

Ant Groupのアルゴリズム専門家

崔青は2015年に清華大学で数学の博士号を取得し、同年にアリババに入社しました。2015年から2018年にかけて、アリババクラウドにおいて大規模機械学習プラットフォームおよび強化学習プラットフォームの研究開発に従事しました。2018年にアントグループに入社後は、主に解釈可能プラットフォームおよび因果推論プラットフォームのビジネスアプリケーションおよび技術研究開発を担当しました。

より詳しい技術的洞察を得るには、私たちをフォローしてください。

  • WeChat公式アカウント:信頼できるAIの進歩
  • OpenASCE、分散型エンドツーエンド因果学習システム: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE
  • 大規模モデルによって駆動される知識グラフ OpenSPG: https://github.com/OpenSPG/openspg
  • 大規模グラフ学習システム OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning