このところ、AI(機械学習)による株価予測モデルの構築に奔走していました。機械学習の手法は様々ですが、場当たり的にそれぞれの手法を検証したわけではなく、フィナンシャルデータを扱うために適切な手法がどのようなものか理論的な考察の下でアプローチを進めました。
ところが結果として、統計的手法に基づく予測モデルのパフォーマンスを上回ることが出来ませんでした。今回は簡易的ではありますが、その結果の一部を公開します。
◆機械学習の手法
(1)スタッキング
機械学習の予測精度を高めるためには、スタッキング(ブレンディング)と呼ばれる手法が使われます。集団学習手法の1つであり、複数の機械学習手法の結果を組み合わせるものです。単一の機械学習の手法にはそれぞれ得手不得手があるため、スタッキングを行うことでそれぞれの弱点を相補的に補うことができます。
スタッキングは機械学習コンペなどで上位に入るために「やっていない人はいない」と言われるくらい常識的に使われている手法です。これまで何度も言及してきた通り、フィナンシャルデータの予測モデル構築にディープラーニングが使われることは通常はありません。しかしなぜか国内の大手機関は使いたがる傾向にあるようです。これは流行のものに飛びつくという日本人の性質によるものなのかもしれません。
(2)構築した機械学習モデル
今回構築したAI(機械学習)による予測モデルでは、3種類の機械学習手法をスタッキングしています。それぞれの手法の名称については非公開ですが、フィナンシャルデータの特性と機械学習手法の特徴を鑑み、適切なものを選択しています。またデータセットはそれぞれの手法で同じものを使いますが、各手法の特徴に応じて異なる前処理を施しています。
◆結果
以下に結果を示します。それぞれ、ロングショートポートフォリオの累積リターンです。ポートフォリオの銘柄数、仕掛け金額等の構成は非公開です。
各手法の比較はアウトオブサンプル期間で行います。機械学習手法は与えられたサンプルに強くフィッティングできてしまうため、インサンプル期間のパフォーマンスで判断することはできません。結果として機械学習手法は全く統計的手法に追い付いていないことが分かります。なお、現在の運用はこの統計的手法ベースで行っていることは言うまでもありません。
冒頭にも述べた通り、今回の検討ではAI(機械学習)による予測モデルは統計的手法に基づく予測モデルを上回ることができませんでした。この結果はAI(機械学習)による株価予測モデル構築の難しさを示唆するものですが、必ずしも本当にその通りであるとは限りません。しかし今回の一連の検討の過程においてなぜこのような結果に至ったのか、フィナンシャルデータの予測モデル構築における自分なりの理論が確立できたと思います。
また1年超に渡りAI投資の研究を進めてきましたが、ここにきて投資におけるAI活用の本質がどのようなものか確信が持てました。こちらについてはそのうち記事する予定です。