これからの「お金」の話をしよう

(旧 システムトレードのススメ)

【株式市場分析】ヒストグラムを観察する

f:id:uki-profit:20170814220040j:plain

何らかのデータを入手した際、まずすべきことはヒストグラムを作ることだと思っています。

 

一般の統計的手法は正規分布であることを前提としており、何も考えずに分析を進めてしまうと思わぬ誤りが発生する可能性があります。

 

 

1.具体的にどんな誤りが起こるのか?

 

投資向けの分析で発生してしまう代表的な誤りとは、以下のようなものが挙げられます。

 

 

(1)標準偏差の誤り

 

そもそも標準偏差とは、正規分布を前提として定義されています。

もしも対象の分布が正規分布から大きく外れている場合、これを正しく計算することができません。 

 

特にファットテールな分布の場合、標準偏差(のようなもの)は過小に計算されてしまいます。 

これはすなわち、「発生確率が0.00001%だから大丈夫」のような想定が簡単に覆ることを意味します。

 

投資における標準偏差とはすなわちリスクであり、これを見誤ったために破綻してしまった典型的なファンドがLTCMです。

 

 

(2)相関係数の誤り

 

一般に相関係数というと、ピアソンの積率相関係数を指します。

ピアソン積率相関係数は、上記(1)のとおり偏差の正規分布を仮定するパラメトリック手法です。

 

相関係数にずれが発生してしまうと、統計的エラーが起こりやすくなってしまいます。

つまり、ありもしない特性を発見してしまったり、逆に大切な特性を見逃してしまったりする、ということです。

 

投資における相関係数とは情報係数(IC)であり、リターンの源泉なのです。

 

 

(3)運用パフォーマンスの見込みの誤り

 

上記(1)、(2)の結果から、実際に運用する際のパフォーマンスを正しく見積もれなくなってしまいます。

 

リターンも見込み違い、リスクも見込み違いでは、どれほどの影響が降りかかってくるか想像することもできません

 

 

2.ヒストグラムを見てみよう

 

(1)ヒストグラムの作り方

 

かつてはエクセルでヒストグラムを作っていました。

エクセルで作る場合はアドインの「分析ツール」を使うのですが、範囲指定が都度必要であり、次第に面倒くさくなってきます。

 

よって最近はRばかり使っています。

 

Rはフリーの統計解析ツールであり、簡単にダウンロードして使うことができます。

ヒストグラムの描画方法を説明しているWEBサイトも多々ありますので、そちらを参考にしてください。

 

 

(2)ヒストグラムの例

 

ここでは、TOPIX500の(a)時価総額、(b)PBR、(c)モメンタム(12ヶ月騰落率)の分布を観察します。

これらの3つは、最も頻度よく使われているファクターであると思います。

 

図1.各ファクターのヒストグラム(生値)

f:id:uki-profit:20171007222425j:plain

 

(a)時価総額と(b)PBRには極端な飛び石が存在しています。

分かる人には一瞬で分かると思いますが、(a)時価総額の飛び石は7203トヨタ自動車、(b)PBRの飛び石は3092スタートトゥデイと4587ペプチドですね。

 

このような異常値(アウトライヤー)は排除して考えます。

そうするとヒストグラムは下図のようになります。

 

図2.各ファクターのヒストグラム(異常値排除)

f:id:uki-profit:20171007222530j:plain

 

少し見やすくなりました。

 

この3つのファクターはメジャーなものですが、どれも正規分布ではありません

 

(c)モメンタムは正規分布に近いように見えますが、左右が歪んでいます。

モメンタムの分布は市況に大きく左右され、もっと歪みが顕著になる時期があります。

 

 

3.正規分布でない指標の扱い方

 

このような指標の扱い方は、3通りの手法が存在します。

 

 

(1)変数変換して強制的に正規分布に変換する

 

元の指標に何らかの数式を当てはめて変数変換します。

対数を取るやり方(log10(x))が最も多く使われます。

その他にも逆数を取ったり(1/x)、複雑な数式(1/SQRT(1+x)など)を使う場合があります。

 

下図は3つのファクターを変数変換し、その後正規化したヒストグラムです。

それなりに整形できました。

 

図3.各ファクターのヒストグラム(異常値排除+変数変換+正規化)

f:id:uki-profit:20171007223922j:plain

 

 

 (2)一般化線形モデル(GLM)を使う

 

通常の線形モデル(正規分布を前提)を様々な分布に対応できるよう拡張したモデルです。

今回は詳細な説明は割愛します。

 

 

(3)ノンパラメトリックモデルを使う

 

決定木や最近傍法など、指標の分布を全く気にしない手法です。

個人的には、あまり好きではありません。

 

 

・・・実はこのように気を使っても、バックテストのパフォーマンスは殆ど変わらない、ということはよくあります。