これからの「お金」の話をしよう

(旧 システムトレードのススメ)

ディープラーニングの罠

f:id:uki-profit:20170814143641j:plain

前回記事「AI投資(4)」の続きとして、ディープラーニングの投資への応用について纏めます。このような詳細な見解を公表するのは、国内では初めてかもしれません。 

we.love-profit.com

なお断っておきますが、他のネタが尽きたわけではありません。この辺りで記事にしておかないと旬の時期を逃してしまう恐れがあるためです。昨年、爆発的なブームとなった人工知能ですが、こと投資に関しては今年くらいで尻すぼみではないか、とも考えています。

 

そもそも人工知能とはデータに基づく単なる予測(識別)ツールでしかないのですが、サイエンスフィクションの影響で過大な妄想が付きまとっています。特にディープラーニングは「モデルが自動的に対象の特徴を抽出する」といった触れ込みがあり、まるで「機械が自ら学んで概念を獲得するようになる」といった印象を受けてしまいます。そのような印象からディープラーニングを投資へ応用した場合、「人間の理解を超えた、リターンに繋がる特徴を探索する」といった期待が寄せられているようです。

しかしそういった考えには警鐘が鳴らされています。前回記事で取り上げたベン・ゲーツェル氏(香港のファンドAidyiaチーフサイエンティスト)だけでなく、AI運用大手のツーシグマ創業者であるデイビッド・シーゲル氏もそのような見解を持っています。

(「ヘッジファンドの期待は眉唾もの、機械学習は革命的から程遠い」-Bloomberg、16年11月11日)

 

前置きが長くなりましたが、本題に入ります。なお、本記事ではディープラーニングそのものの説明は最低限に留めます。予備知識を持っている前提で話を進めます。

(参考書籍:「人工知能は人間を超えるか」、松尾豊氏)

 

ここで言うディープラーニングとは、オートエンコーダを深層に重ねたものです。オートエンコーダとは、砂時計型にくびれたニューラルネットの入出力層に同じ情報を与え、中間層を介して入力データを圧縮・復元するものです。このとき中間層には入力情報が圧縮されたもの、つまりそのデータの「特徴」が残ることになります。これを繰り返し重ねることで、モデルの中に次第に「人」や「猫」などの概念(ラベル)が形成されます。

170114-1.png

 

さて、このオートエンコーダの機能は「特徴抽出」と呼べば聞こえが良いのですが、実はもう1つ「次元削減」という別の呼び方が存在します。中間層の次元数が入力層の次元数よりも少なくなっているからです。「特徴を抽出する」ということは別の言い方をすると、「重要な情報だけ残して不要な情報を捨てる」ということです。さらにもう少し加えると、この「次元削減」とは当然ながら「情報の劣化」を伴います(この時点で既に嫌な予感しかしないでしょう)。

 

ディープラーニングを投資へ応用する場合、まず第一に注意しなければならない点は、「入力変数にファンダメンタルなデータを採用しない」ということです。ファンダメンタルなデータは「売上高」「時価総額」「PER」などのように既にラベル付けされており、これらを入力しても大した効果は得られません。せいぜい「売上高」と「時価総額」がまとまって「企業規模」というラベルになるくらいでしょう。これではディープラーニングによる特徴抽出の恩恵は殆ど得ることができません。

「次元削減によって汎化性能の向上は起こりうるのでは?」と言った反論が予想されますが、多次元による汎化性能劣化の問題(いわゆる次元の呪い)はモデルの組み方に起因するものであり、わざわざ特徴抽出で入力変数を削減しなくとも、単純な入力変数の選定を行えばよいだけの話です。自ら選択肢を狭めるようなディープラーニングを使う意味は全くありません。単純な次元圧縮技術であるディープラーニングはその過程で予測力が向上することは有りえないのです。

 

ではディープラーニングを投資へ応用する場合、どのような用途が考えられるのでしょうか?これは画像認識のように、チャートや板などをそっくりそのまま入力するしかありません(画像はピクセルデータを入力しますが、チャートは四本足の時系列データとなります)。チャートにディープラーニングを適用した場合、AIがそれらのデータをこねくり回して何らかの指標を作ることになります。これは移動平均線やボリンジャーバンドのような「AI独自のテクニカル指標」となります。

では果たして生成されたテクニカル指標がリターンに対する予測力を持つのでしょうか?結論から言うと「持つわけがない」です。

 

画像認識を例に挙げて定性的な説明をします。ディープラーニングとは「特徴抽出」であり「次元削減」であり、さらに言えば「フィルタリング」であり、さらに例えるならば「曇りガラス」のようなものです。これがノイズのかたまりのような画像データに適用すると、しっくりくるのです。テレビの画像を例に挙げても、周辺に小物が散乱したり背景に壁紙があったりします。これらに曇りガラスを掛けて、それでもボヤっと見えてくるものが特徴なのです。ディープラーニングとは言い方を変えると、見ないものを見ないためのテクニックなのです。

ではあなたは曇りガラス越しにチャートを見てリターンが予測できるのですか?浮かんでくるのはせいぜいトレンドやボラティリティであり、既存のテクニカル指標と何ら変わりないのです(もう少し例えるなら砂金取りでもよいです。ざるに残るのは大きな石ころばかりで砂金はこぼれ落ちます)。

 

・・・単純にデータの特徴を掴むのではなく、リターンに繋がる特徴を掴むやり方が他にあります。極端な話、投資向けのディープラーニングは単純な回帰分析にも劣ります。この点から私は「ディープラーニングで株価を予測」などと言った記事は全く信用していません。機械学習に従事する者であれば、間違いなく別の選択肢を選ぶはずだからです(なぜこの点に誰も触れないのか、不思議でたまりません)。