少し遡りますが、2月18日付けのブルームバーグに以下の記事が掲載されていました。
「人工知能が株式市場で存在感、学識者驚く的中率68%-将来8割も」
人工知能と聞くとCPUが自発的に思考して未来の事象を予測するようなイメージを持ちますが、実際の人工知能とは要するにニューラルネットなどの機械学習のことを指し、あくまでも経験データに基づく確率的・合理的な予測しかできません。本記事は三菱UFJモルガン・スタンレー証券の瀬之口潤輔氏の研究によるもので、日経平均の翌月リターンをハイ/ローで予測するというものです。
記事からの引用になりますが、「上がるか下がるかなので50%が基準になり、そこからどれだけ高められるか。今まで出てきたモデルは57-58%で、今回70%近くまで持ってきたのは飛躍的な進歩」とのことです。
これは確かにその通りで、あるアセットに対して常にポジションを取る毎日(毎月)参戦型モデルの勝率は通常57%~58%が限界であり、勝率60%を超えることはまずありません。この記事が真実であれば文字通り「飛躍的な進歩」となります。
記事の内容や同氏の過去の研究報告から、同氏の手法はランダムフォレストと考えられます。ランダムフォレストとは決定木(ディシジョンツリー)を扱う分析手法の1つです。分析対象のデータの中からランダムにデータセットを抽出して決定木を構築します。個々の決定木の精度は決して高いとは言えないのですが、多量に生産した決定木の結果を統合することで、結果的に高い精度を実現します。ランダムシードのツリーがたくさん生えているので「ランダムフォレスト」と呼ばれます。
記事の内容から、分析で使用している説明変数は92個、作成する決定木モデルは200個、そして計算期間は48ヶ月ローリングウィンドウであることが分かります。
しかし記事中に「200種類のモデルの中で最も当たったルールを採用する」とあります。この記述については疑問が残ります。前述した通り、ランダムフォレストはランダムに抽出したデータセットを使用するため、その中には偶然に出来の良いモデルが含まれる可能性が多分にあります。
このような特異モデルの影響を抑えるため、通常のランダムフォレストでは結果を統合する際に多数決や平均を取ることで、全体のモデルの特性をまんべんなく取り入れている筈です。ランダムフォレストの性質上、ベストモデルを選ぶというやり方はカーブフィッティングに陥る可能性が非常に高いと言えます。また得られた結果の評価にはモンテカルロ的なアプローチが不可欠であることは言うまでもありません。
機械学習には過学習を防ぐ方法も存在するため、データ抽出やモデル作成の過程で何かケアしているのかもしれません。
実際にAIが株式市場を席巻するのはまだまだ難しいと思います。