機械学習を実生活に(その4)
どーも管理人です。
それでは5月9日の東京競馬参戦記の続きです。
さて、ここまでは連敗ですが、この後きっと挽回すると信じています。(根拠なし)
3R 3歳未勝利ダート1600m
予想では1、2、3着は人気順と予想しています。オッズも2.6、3.7、5.3とそれなりに離れています。3番人気と4番人気のオッズは、5.3と5.4で拮抗していますが、あくまで3着の予想なので関係なさそう。
なので3Rの投票券は、馬連2-5で500円としました。

結果です。(右表)
1着は4番人気、2着に6番人気がきました。ははは、またハズレ。これで3連敗です…。13着は当たりましたが。意味ねーw
馬連オッズは55.1倍か。当たっていればなー。
4R 3歳未勝利ダート1400m
さあ、もう後がありません。
予想は、完全に人気順になりました。本当かよ…。ちゃんと予想したのか?
オッズもそれなりに離れていたので、番狂わせはなさそう。でも一応リスクを考えて、投票券は馬連2-14で200円、馬連2-9で200円、馬連2-11で100円と分散で購入。1番人気が1着にこないと大変なことになりますよ。

結果です。(右表)
…1着6番人気、2着11番人気。馬連オッズはナント497.9倍!
100円でも当たっていれば49790円。
しゅ…しゅごい…。
ルールに定めた下限のマイナス33.3%(2000円)に達しましたので今日は退場となります。今日は最初から4連敗の結果になりました。トホホ…。
今日の反省
失敗から学ぶことは大事です。ダンボール工作でもしょっちゅう失敗してますからね。いくつかの改善点を考えました。
1.データ数と特徴量を増やす
やはりデータ数が少なすぎます。あと、特徴量もクローリングした値をそのまま使っている感じなので。特徴量を組み合わせて新たな特徴量を作るようにします。
2.オッズと人気
オッズと人気は、互いの相関が強いため両方を特徴量として組み入れると多重共線性の問題が生じる恐れがあります。正確に測っていませんが、相関値0.9程度はありそうな感覚です。なのでどちらか1つにしてモデルを作ってみます。
3.2着を考える
データを眺めると、1着になる馬は1番人気の馬である割合が最も多い(約30%)ですが、2着馬は2番人気かというとそうでもありません。(単勝賭けでしたら2着は考えなくてもよいのですが、利益率の関係でどうしても馬連賭けにしたいところ。)2着で最も多いのは1番人気の馬です。なので現在の人気に頼ったモデル予想は考え直す必要がありそう。
4.荒れるレース
機械学習は予想外?な荒れるレースの予想は難しいとされています。なので現在の人気に沿った予想、つまり順当な予測になるのはある程度仕方ありません。そこでレースが荒れるか順当なのかについても予測に組み入れるようなモデルを考えてみます。
さぁ、反省を踏まえてリベンジ…倍返しだ!