相関関係か因果関係か - これからの「お金」の話をしよう

f:id:uki-profit:20170814220040j:plain

２つの変数の間に相関関係が見られるとき、それが単なる相関関係なのか因果関係なのかを見分けることが重要と言われます。

過去のコラムの「投資部門別売買状況（１）」で紹介した事例を挙げると、「相場の下落」と「個人投資家の買い」に相関関係が見られたとき、「相場が下落したから買った」のか「個人投資家が買ったから下落した」では意味が大きく異なります。後者が少し分かりづらいかもしれませんが、「保有期間が比較的短い個人投資家の買いは近い将来の売り圧力となる」といった意味で解釈が可能です。

we.love-profit.com

今回は因果関係の特定（推定）がモデル構築においてどのような意味を持つのか考察していきます。

まず２つの変数ＡとＺに相関関係が見られるとき、その関係は次のいずれかとなります。

（１）ＡとＺは相関関係にあるが、因果関係は存在しない。

（２）ＡとＺは相関関係にあり、因果関係Ａ→Ｚが存在する。

（３）ＡとＺは相関関係にあり、逆の因果関係Ｚ→Ａが存在する。

（４）実はＡとＺに相関関係は存在せず、観察上の問題である。

ここで投資モデルを構築する場合、説明変数Ａと目的変数Ｚにはラグが存在するため、（３）の逆の因果関係Ｚ→Ａは起こりえません。また（４）が発生する原因として見せ掛けの相関や選択バイアスなどが考えられますが、今回は正しく統計分析がなされたものとしてこれも除外します。よって両者の関係は（１）か（２）となり、これをモデルで書くと下図のようになります。

ここで（１）の場合はＡとＺの上流にある共通要因Ｂによって相関関係が発生しており、このような関係を「交絡」と呼びます。では（１）と（２）のモデルを用いて変数をランダムに生成したときのＡ⇔Ｚの相関係数と収益性（累積リターン）の関係をシミュレートしてみます。

結果として、「相関係数が同じであれば単なる相関関係と因果関係で収益性は変わらない」ということが読み取れます。これはアクティブ運用理論の通り、投資のスキルは単純に相関係数で判断できるということです。では収益性が変わらないのであれば、因果関係の特定（推定）は必要ないのでしょうか？

そうではありません。両者の関係が因果関係でなく単なる相関関係であった場合、交絡要因Ｂが存在します。もしもこの交絡要因Ｂを特定して説明変数として取り入れることができた場合、Ｂ⇔Ｚの相関係数はＡ⇔Ｚの相関係数よりも遥かに高く、収益性を大幅に高めることが可能となります。

よってモデルの構築プロセスとして、

１．まずは帰納的な手法を用いて相関係数の高い変数を特定する。

２．続いて演繹的な手法で因果関係を推定してモデルの改善（＝収益性の向上）を図る。

といったプロセスが有効です。

演繹的な手法だけでは主観によって有効な変数を見逃してしまう可能性があり、帰納的な手法だけではモデルを改善するチャンスを逃がす可能性がある、ということになります。なお、帰納的手法はカーブフィッティングに陥る可能性が高いという理由で嫌われることが多いのですが、それは単にモデルの構築手法が悪いだけであることを付け加えておきます。