「カブドットコム証券、SNSやPOSデータを活用したFinatext/ナウキャスト社配信ニュースのUIを刷新」
日経新聞、2017年9月15日
これまでに散々AIによる投資モデル構築を検討してきましたが、その過程において投資におけるAI活用の本質がどこに存在するのか見えてきました。
上記の日経新聞のプレスリリースは、私の考える投資におけるAI活用の本質そのものです。
今回のコラムでは、投資におけるAI活用の本質がどこに存在するのか、またカブドットコム証券のサービスがどのようにそれに該当しているのか、順を追って説明していきます。
関連コラム:
1.モデリングにおける情報喪失の話
物理現象のモデリングでは、その過程において二段階の情報喪失が発生します。
まず第一段階の情報喪失ですが、これはサンプリングの際に発生します。
現実の世界ではモデルにどのようなデータを採用するか、無限の可能性が広がっています。
ただし世の中に存在するデータの中には、収集コストが高い(データ化が難しかったり単純に収集にお金が掛かる)ものがあります。
収集コストが高いデータほど、エッジが存在している可能性があります。
収集コストと説明力を天秤にかけ、採用するデータを取捨選択しなければなりません。
中には説明力が高く入手も容易なのですが、見過ごしてしまうデータもあるかもしれません。
このようにサンプリングの段階で種々の問題により情報喪失が発生してしまうのです。
続いて第二段階の情報喪失ですが、これはモデリングの際に発生します。
これは採用したデータからモデルに不必要なデータを切り離すことで発生します。また、モデリングが上手くいかず、統計的エラーにより必要な情報が失われる場合もあります。
第二段階の情報喪失とは意図的な情報喪失であることが多く、第一段階の情報喪失で失われる情報が極めて大きいと言えます。
2.投資におけるAIの本質的活用方法
例えば機械学習コンペなどでは使える特徴量があらかじめ決められているため、第一段階の情報喪失は考慮する必要がありません。
しかし現実の投資モデル構築においては、データありきでモデル精度を高めようとする取り組みは非常にナンセンスです。
データありきの状態では、モデリングによる予測性能の上限は決まっており、ブレイクスルーが望めないからです。
モデルをこねくり回して予測性能を上げようとするよりも、何か1つ説明力の高いデータを取り入れることができれば、予測性能の上限は飛躍的に向上します。
よって投資におけるAI活用の本質とは、モデリングの問題ではなくサンプリングの問題に存在するのです。
サンプリングの段階で説明力の大きなデータを採用し、シンプルな予測モデルを構築することが重要なのです。
サンプリングに活用するAI(機械学習)の手法とは、特徴抽出というラベル化・数値化のテクニックと特徴選択というマイニングのテクニックです。
3.AIによるレイテンシー・アービトラージ
もしもAI投資で収益を望むのであれば、AIによる予測モデル構築はやめて投資指標の抽出・選別に力を注ぐべきです。
当然ながら成功しているAIファンドが力を注いでいるのは、この分野です。
ツーシグマのアルファキャプチャは、前回コラムで説明したとおりです。
では、投資における究極のAI活用とはいったい何なのでしょうか。
それは「AIによるレイテンシー・アービトラージ」です。
レイテンシー・アービトラージとは、情報伝達の時間差を利用した裁定取引です。
言い換えると、AIを使って一般の投資家よりもわずかに早く情報を取得することで、取引を先回りすること(フロントランニング)を指します。
ツーシグマの行っている衛星画像分析もこれに当たります。
駐車場の混雑具合が分かる画像を集計することで、他の取引参加者よりもいち早く売上高の予測値を入手し、先回りするという投資手法です。
しかし、このような分析をしなくとも、もっと簡単に精度良く分析対象の企業の売上高を予測できるデータが他にも存在します。
4.カブドットコム証券のサービス
それが小売店のレジ情報(POSデータ)やクレジットカード情報、ネットバンク情報です。
どの企業の商品がどれだけ売れているか、ひと目で分かります。
またこれらのデータは既に数値化されているため、詰まるところ大仰なAIなどでなく単なる集計ツールでも分析できてしまいます。
カブドットコムと協業している国内ベンチャーのナウキャストは、POSデータや登録会員のクレジットカード情報を使った物価指数の算出を行っています。
今回のプレスリリースは、カブドットコムで行っているそれらの投資情報の提供を拡充する、といったものです。
ここからは個人的所見ですが、
おそらくナウキャストはスタートアップ当初から投資への転用を見据えてこれらのデータを使った物価指数の集計を行っていたはずです。
これらのデータには当然予測力が高いものと高くないものが含まれており、カブドットコムがユーザーに提供する情報は予測力がそれほど高くないものである気がします。
5.法律への抵触の可能性
では、これらが法律に抵触する可能性はないのでしょうか?
POSデータは現時点では普通に購入することができるため、問題となるのはクレジットカード情報やネットバンク情報です。
当然ながらクレジットカード会社やネットバンクが、顧客のデータを使って株式取引することはインサイダー取引に該当します。
また不正にクレジットの個人情報を取得することも個人情報保護法で禁止されています。
しかし、これらのデータを合法的に取得する方法も存在します。
例えば個人顧客からの自身のクレジット情報やネットバンク情報の買い取りが挙げられます。
情報収集コストは高くなりますが、自己運用による利益が発生し、さらに第三者へ提供できるという約款があれば、十分に元が取れる可能性があります。
またナウキャストが行っているように、登録者から情報を集める代わりに対価として集計結果を提供するという手段もあります。
これをファンドに置き換えると、ファンドの購入を認める代わりに個人情報の提出を求めるというやり方です。
6.マーケットインパクト
では、これらの影響がどこに出てくるのでしょうか?
仮に売上高の推移を高精度で予測できた場合、決算発表前にポジションを仕込むことが考えられます(フロントランニング)。
そうすると当然ながら決算発表直後に利確の動きが現れます。
これらのレイテンシー・アービトラージの一番の矛先となるのがBtoC企業です。
当然ながら顧客の消費動向と企業の売上高とが密接に関わりがあるからです。
すでに決算発表日にはおかしな挙動を示す銘柄が出てきているかもしれません。
このような手法を突き詰めるとやはり違法スレスレと判断され、規制が作られる可能性が高くなってきます。
ちょうど公正取引委員会が6月5日にビッグデータの独占禁止に関する声明を出したところです。
カブドットコム証券のサービスは、近い将来、ビッグデータ独占禁止の議論対象となりえるかもしれません。