|
はじめに: DataFunコミュニティから転載されたこの記事は、「因果推論におけるデータ活用の改善方法」と題されており、主にチームが最近発表した因果関係に関する研究成果を紹介しています。本稿では、より多くのデータを活用して因果推論を改善する方法を、2つの側面から紹介します。1つは、過去のコントロールデータを用いて交絡バイアスを明示的に軽減する方法、もう1つは、複数ソースのデータ融合に基づく因果推論です。 チームの作業の一部は OpenASCE プロジェクトでオープンソース化されており、GitHub で入手できます: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE 完全な目次:
ゲストスピーカー:Ant Groupのアルゴリズム専門家、Cui Qing博士 編集・編纂:Yooki、華中科技大学 コミュニティ制作 | DataFun 01 因果推論の背景 一般的な機械学習の予測問題は通常、同じシステム内で設定され、多くの場合、独立かつ同一分布に従うシステムを前提としています。例えば、喫煙者の肺がん発生確率の予測や画像分類などが挙げられます。一方、因果関係の問題は、データの根底にあるメカニズムに関係します。よくある質問として、「喫煙は肺がんを引き起こすのか?」というものがありますが、これらは因果関係の問題です。 因果効果を推定する問題には、非常に重要な 2 種類のデータがあります。1 つは観察データであり、もう 1 つはランダム化比較試験によって生成された実験データです。
因果推定問題E(Y|do(X))と従来の予測問題または分類問題E(Y|X)の主な違いは、ジュディ・パールが提唱した介入記法「do」の存在にあります。これは、介入によって変数Xを特定の値に強制するものです。本報告書は、主に観測データから因果効果を推定することに焦点を当てています。 因果推論において、データをどのようにより有効に活用できるでしょうか?本レポートでは、2つのチームによって最近発表された2つの論文を例に挙げ、このトピックを紹介します。
02 修正因果樹 GBCT 1. 従来の因果関係ツリー ツリー アルゴリズムは主に 2 つのモジュールで構成されます。
従来の因果木アルゴリズムの中には、因果効果の異質性に基づいて分割を行うものがあります。基本的な考え方は、分割後の左右の子ノードの因果効果が有意に異なることを期待し、分割を通じて異なるデータ分布における因果効果の異質性を捉えることです。 従来の因果ツリーの分割基準、例:
パラメータ推定の一般的なアプローチは、分岐後のリーフノードにおける実験群の平均結果から対照群の平均結果を直接差し引き、これを因果効果の推定値として使用することである。ランダム化比較試験では、治療の割り当てメカニズムはランダム化され、その結果得られる平均差が因果効果となる。ランダム割り当てメカニズムにより、実験群と対照群のデータ分布が同じ、すなわち均質であることが保証される。 因果木において、分割によって子ノードが得られる場合、分割によって得られる左と右の子ノードの分布が均一であることが保証できますか? 2. 修正因果樹(GBCT) 従来の因果木やアップリフト木では、分岐後の左右の子ノードの分布が均一であることを保証できません。そのため、前のセクションで述べた従来の推定法では… それは偏っています。 本研究では、治療群における平均因果効果CATTの推定に焦点を当てています。CATTは以下のように定義されます。 さらに、従来の因果効果の推定は、次の 2 つの部分に分けられます。 選択バイアス(または交絡バイアス)は次のように定義できます。 直感的に言えば、これは対照群の治療効果=0の推定値から、実験群の治療効果=0の推定値を差し引くことを意味します。従来の因果樹では、このバイアスは考慮されておらず、選択バイアスが推定値に影響を与え、最終的な推定値にバイアスが生じる可能性があります。 私たちのアプローチは、製品またはプラットフォームに蓄積された過去の比較データを活用し、選択バイアスを明確に低減することです。これは、以下の2つの仮定に基づいています。
具体的な手順: ① 分割基準
直感的に理解すると、実験群では対照群のモデルが推定に用いられ、対照群では実験群のモデルが推定に用いられます。これら2つの部分の推定値は可能な限り近い値に調整され、実験群と対照群の分布が可能な限り一致するようになります。混同エントロピーの利用は、本研究の主要な貢献の一つです。
②パラメータ推定
従来のツリーモデルアンサンブルには、バギングやブースティングといった手法が含まれます。アップリフトフォレストまたは因果フォレストは、アンサンブルにバギング手法を使用します。アップリフトフォレストアンサンブルは直接加算によって実現されますが、因果フォレストアンサンブルでは損失関数を解く必要があります。 GBCTには明示的な修正モジュールが含まれているため、ブースティング法を用いた統合をサポートしています。基本的な考え方はブースティングに似ています。最初のツリーを修正した後、2番目のツリーを修正し、3番目のツリーを修正する、というように繰り返していきます。 実験は2つの部分から構成されています。 ① シミュレーション実験。グラウンドトゥルースを含むシミュレーション実験において、GBCT法の有効性を検証した。シミュレーションデータ生成は2つの部分から構成されていた(表の最初の列Φは選択バイアスを表し、Φ値が大きいほど選択バイアスが強いことを示している。表の値はMAEを表し、MAE値が小さいほど手法が優れていることを示している)。
② 実際のクレジットカード限度額増額データ。ランダム化比較実験を実施し、この実験に基づいてバイアスデータを構築した。様々な設定において、GBCT法は一貫して従来の手法よりも優れた性能を示し、特にバイアスデータにおいては従来の手法を著しく上回った。 03 因果データ融合 2 番目のタスクは因果データの融合です。これは、複数のデータ ソースが利用可能な場合に因果効果をより適切に推定する方法です。 主要な記号:複数のデータソースを表します。Yはアウトカム、Aは治療、Xは関心のある共変量、Zは各データソース(ドメイン)におけるX以外の共変量、Sはドメイン指標、μは潜在的なアウトカムの期待値です。アウトカムは以下の式に分解されます。 目的関数δは、各ドメインにおける因果効果を推定するために使用されます。さらに、ニューサンス関数には、主効果、傾向スコア、ドメイン傾向スコア、および効果の分散が含まれます。 メタ学習者などの従来の手法では、データが同じソースから取得されていること、つまり分布が一貫していることを前提としています。従来のデータ融合手法の中には、ドメインをまたぐ集団間の異質性を扱うことができるものもありますが、ドメインをまたぐ介入結果や因果効果の異質性を明示的に捉えることはできません。私たちの研究は主に、ドメインをまたぐ介入結果や因果効果の異質性など、より複雑なドメイン間の異質性に取り組んでいます。 WMDLアルゴリズムのフレームワーク図は上記に示されています。主なモジュールは次のとおりです。
3つのモジュールを組み合わせることで最終的な推定値が得られます。WMDLアルゴリズムの3つの特徴は次のとおりです。
本研究では、実験群と対照群の結果を推定し、それらを差し引いて因果効果の推定値を得るのではなく、因果効果を直接推定する、すなわち直接学習を採用した。直接学習の利点は、実験群と対照群における高周波ノイズ信号を回避できることである。 左側では、複数のドメインにわたって因果効果は同じであるが、その結果は異質である可能性があると想定しています。右側では、因果効果は各ドメイン間で異なる、つまり共変量が同じであっても、因果効果は異なるドメイン間で異なると想定しています。 この式は分解式から導出されます。結果Yから主効果を差し引いた値から処置効果を割るとI(X)が推定され、最適解はδ(X)となります。 分子は因果情報を考慮した重み付けモジュールであり、これについては後述しますが、本研究の大きな貢献です。分母はダブルロバスト法の傾向スコアに似ていますが、本研究ではドメイン情報も考慮します。異なるドメイン間の因果効果が異なる場合は、ドメイン指標情報も考慮されます。 この作業の利点は3つあります。 ① 異なるデザインを使用することで、介入結果の異質性だけでなく、因果効果間の異質性にも対処できます。 ② 二重の頑健性という特性を持つ。論文では、当該ドメインの傾向スコアモデルまたは主効果モデルの推定値が偏りがなければ、最終的な推定値も偏りがないことが証明されている(実際の状況はもう少し複雑であり、詳細は論文を参照)。 ③ 本研究では、主にセミパラメトリックモデルフレームワークを設計しました。モデルの各モジュールは任意の機械学習モデルを使用でき、モデル全体をニューラルネットワークに設計することで、エンドツーエンドの学習を実現できます。 重み付けモジュールは、統計学における効率性限界理論から派生したものです。主に以下の2つの情報が含まれています。 ① ドメイン間の分布の違いを調整し、変換するためのモジュールです。 これは因果関係に関する情報を含むモジュールです。左側の3つの図は理解を助けるでしょう。ソースドメインとターゲットドメインの分布に有意な差がある場合、ターゲットドメインに近いサンプルに高い重みが与えられます。 ② 分母に傾向スコア関数を設計することで、実験群と対照群の間で重複するサンプルに大きな重みが与えられる。 ③ Vを使用してデータ内のノイズを特徴付けます。ノイズは分母にあるため、ノイズの少ないサンプルには大きな重みが与えられます。 上記の 3 つの部分を巧みに組み合わせることで、異なるドメイン間の分布の違いと異なる因果情報の現れを、統一されたドメインにマッピングすることができます。 因果効果が均質か異質かに関わらず、WMDL(重み付きマルチドメイン直接学習)法は良好なパフォーマンスを示します。右図は重み付けモジュールのアブレーション実験を示しており、その有効性を示しています。まとめると、WMDL法は推定分散が比較的小さいため、他の手法よりも一貫して優れたパフォーマンスを示します。 04 Ant Groupのビジネスアプリケーションでは 金融信用リスク管理シナリオでは、信用限度額の引き上げや金利の引き下げといった介入は、残高やリスクの変化といった望ましい効果を達成することを目的としています。実際のシナリオでは、GBCTの是正措置は、信用限度額の引き上げ前の一定期間の過去の実績を活用します(引き上げ前の実験グループとコントロールグループの状態が利用可能です)。この履歴情報により、明示的な修正が可能になり、介入後の推定がより正確になります。GBCTはサブノードに分割され、介入前の行動を整合させることで、介入後の因果効果の推定を容易にします。グラフ(修正後)では、赤は信用限度額引き上げグループ、青は引き上げなしのグループ、中央の灰色の領域は推定される因果効果を表しています。GBCTは、よりインテリジェントな意思決定を行い、信用商品のバランスとリスクを管理するのに役立ちます。 05 質疑応答セッション Q1: GBCT 補正と二重差分法 (DID) の類似点と相違点は何ですか? A1: GBCT補正の主な考え方は、過去の対照情報を利用して選択バイアスを明示的に低減することです。GBCT法とDID(Difference-in-Differences)法には、類似点と相違点があります。
Q2: GBCTは、観測されていない交絡変数に対して優れたパフォーマンスを発揮します。このことについて、より直感的な説明は何でしょうか? A2: すべての交絡変数が観測されている場合、無視可能性の仮定は満たされます。選択バイアスは明示的に低減されないものの、従来の手法を用いて実験群と対照群をある程度整合させることができます。実験では、GBCTの方がわずかに優れたパフォーマンスを示し、明示的な補正によって結果がより安定することが示されています。 観測されない交絡変数が存在すると仮定します。このようなシナリオは現実世界では非常に一般的であり、過去のコントロールデータにも観測されない交絡変数が存在します。例えば、クレジット限度額の引き上げ前の家族状況や収入の変化は観測できないかもしれませんが、ユーザーの金融行動は過去のデータに既に反映されています。交絡エントロピーなどの過去のパフォーマンス情報を用いることで、選択バイアスを明示的に低減したいと考えています。これにより、ツリーが分岐する際に、分岐した子ノードにおいて交絡変数間の異質性が特徴付けられます。子ノードでは、観測されない交絡変数が類似している可能性が高く、したがって推定される因果効果は比較的正確になります。 Q3: GBCT と Double Machine Learning (DML) を比較しましたか? A3: 比較を行いました。Double Machine Learningはセミパラメトリックな手法です。私たちの研究はツリーベースの手法に重点を置いているため、ベース学習器はすべてツリーまたはフォレスト関連の手法を採用しています。表のDML-RFは、ランダムフォレストのDouble Machine Learning版です。 DMLと比較して、GBCTは主に過去の対照データをどのように活用するかに焦点を当てています。GBCTの対照法では、過去のアウトカムが共変量として直接扱われますが、このアプローチでは明らかに情報が効果的に活用されていません。 Q4: ビジネスにおいて同様の問題に遭遇する可能性があるのは、オフラインオペレーションに選択バイアスが生じる可能性があることです。しかし、オンラインバイアスはオフラインバイアスから乖離する可能性があります。この場合、オフラインのパフォーマンスを評価する際に、オフライン効果を正確に推定することが不可能になる可能性があります。 A4: これは金融分野において非常に根本的な問題です。検索エンジンマーケティングでは、オンライン学習やA/Bテストを通じてオフラインとオンラインの手法の違いをある程度克服できますが、金融分野ではポリシー上の制約によりオンラインでの実験が容易ではありません。さらに、パフォーマンスの観察期間は通常長く、例えばクレジット商品のユーザーフィードバックを観察するには少なくとも1ヶ月の観察が必要です。そのため、この問題を完全に解決することは現実的に非常に困難です。 私たちは通常、以下のアプローチを採用しています。オフライン評価では、異なる期間(OOT)のテストデータを用いて、パフォーマンスの堅牢性を検証・観察します。テストパフォーマンスが比較的安定している場合、オンラインパフォーマンスも良好であると信じる根拠が高まります。 参考文献 [1] Tang、CZ、Wang、H.、Li、https://openreview.net/forum?id=B26CPuYw9VA [2] 李、 本日のシェアはこれで終了です。皆様ありがとうございました。 |スピーカー| 崔青博士 Ant Groupのアルゴリズム専門家 崔青は2015年に清華大学で数学の博士号を取得し、同年にアリババに入社しました。2015年から2018年にかけて、アリババクラウドにおいて大規模機械学習プラットフォームおよび強化学習プラットフォームの研究開発に従事しました。2018年にアントグループに入社後は、主に解釈可能プラットフォームおよび因果推論プラットフォームのビジネスアプリケーションおよび技術研究開発を担当しました。 より詳しい技術的洞察を得るには、私たちをフォローしてください。
|