「Twitter Mood predicts the Stock Market」 (J. Bollen, H. Mao, X. J. Zeng, 2010/10/14)
2010年頃、ツイッターの内容を分析してその日の社会全体のセンチメントを抽出し、株式市場の動きを予測する、という論文が注目を集めました。
インディアナ大学のボーレン准教授による論文です。
この論文では、「特定のセンチメントにおいてダウの騰落方向を86.7%で予測できる」という驚異的な結果が得られていました。
すぐさま翌年の2011年に、この手法に基づいてロンドンのヘッジファンドが運用を開始しました。
ダーウェント・キャピタルというヘッジファンドです。
結論から言ってしまうと、このヘッジファンドは1年と経過しないうちにファンドを清算してしまいます。
ダーウェント・キャピタルCEOのポール・ホーティン氏によると、以下の理由によるとのことでした。
・市況が悪く、ファンドの出資者がリスク回避的である。
・さらにファンドの出資者達は、ツイッター分析の技術をファンドの運用でなく小売業界などのマーケティングへ転用することを望んでいる。
しかし、本当にダウの騰落率を86.7%で予測できるのならば、このような事の顛末を迎えるわけがありません。
このヘッジファンドに何が起きたのでしょうか??
要するに、「この論文が機能しなかった」ということなのでしょう。
今回のコラムでは、この論文の粗探しを行います。
1.論文の要旨
(1)データ
データの元となるツイートは、270万ユーザーの計980万ツイートです。
データの収集期間は、2008年2月28日~2008年12月20日です。
(2)センチメントの抽出
2つの抽出方法を使っています。
1つ目の方法はOpinionFinderというソフトを使っており、分析対象となるツイートがポジティブなのかネガティブなのかを判定します。
2つ目の方法はGoogle-Profile of Mood Statesと呼ばれており、グーグルのデータベースの語彙リストに基づいて分析対象のツイートの気分を6つに分類するものです。
(3)因果性の検定
グレンジャーの因果性検定を用いて、(2)で抽出したセンチメントとダウの上昇下落幅との因果性を検定します。
(4)予測モデルの構築
SOFNN(Self-Organizing Fuzzy Neural Network)という手法により予測モデルを構築し、実際のダウの予測精度を計測します。
2.論文の粗探し
(1)なぜこの期間なのか?
既に気付いている方が多いと思いますが、データの収集期間が2008年だけとなっています。
これは非常にまずいです。
2008年はハッキリ言って特殊な年であり、その年だけで適合させたモデルがその後も上手く機能するとは思えません。
調査には様々な制約があったと考えられますが、このような研究は意味がありません。
(2)アウトオブサンプルはわずか15!
これは論文の中身を読まなければ分からないのですが、
予測モデルの検証期間は2008年12月1日~12月20日であり、この間わずか15営業日しかありません。
15営業日のうち、13勝2敗だと予測精度86.7%ですね。
何をやっているのかよく分かりません。
(3)未来のデータ、使ってない??
これも論文の中身を読まなければ分からないのですが、
センチメント指数をZスコアに換算する際、未来のデータを使っている可能性が高いです(論文中の(1)式)
もしも本当に未来のデータを使っているとすれば、これは宇宙人のなしうる仕業でしょうか?
以上のように、ざっと見ただけで突っ込みどころが満載なのであります。
こんなんでよく論文にしたなぁ、ヘッジファンドの方々は何も思わなかったんだろうか?
これはまさしく白昼夢のようなものでしょうね。
どうやらこのツイッターファンドは夢を見ていたようです。