はじめに
ファイナンス機械学習 金融市場分析を変える機械学習アルゴリズムの理論と実践
という書籍を読み始めました
せっかくなので内容を忘れないようにメモしていこうと思います
超ざっくり要約と一言感想的な感じで
第1章はこちら
2.1 はじめに
ざっくり要約
この章では生データを機械学習で使える形にする方法を学習するよ
感想
はーい
2.2 金融データの基本形式
ざっくり要約
金融データは以下の4つがあるよ
- ファンダメンタルデータ
- 市場データ
- 分析済みデータ
- オルタナティブデータ
ファンダメンタルデータは誤って未来の情報を使わないように注意しようね
論文でもけっこう未来のデータを使っちゃってたりするよ
市場データはデータ量が多いから処理が大変だけどその分アルファが隠されてるかもよ
誰かが分析した結果のデータを利用するのも意外とアリかも
オルタナティブデータは例えばタンカーの衛生画像や駐車場の利用率とかのデータだね
使える形にするのが大変だけどもし使えたら有効だと思うよ
感想
僕は主に仮想通貨のトレードしかしてないのでデータといえば約定履歴とか板とかのイメージだったけど、株とかなら他のデータも重要になりそうだなあと思った
2.3 バー
ざっくり要約
ここでいうバーは、いわゆるOHLCみたいな、機械学習に使いやすいテーブル形式のデータのことだよ
OHLCだと時間区切りだけど、それ以外にも取引単位、出来高単位、ドル単位とかが有効だよ
他にも、前回の価格から上がったか下がったかを記録して定期的に平均とって平均の合計が任意の条件より上か下かで価格の不均衡を見出す、とかも良さげだよ
感想
ここからついに数式が本格的に登場してしまった、、正直なところ、やっぱり数式は半分くらいしか意味が分かりませんでした、、
けどまあここはそこまで厳密に分からなくても良い部分な気がするのでとりあえず先に進みます
それにしてもデータのサンプリング方法がすごく具体的で、こりゃ今すぐにでもbotに活かせるな、ありがてえ
2.4 マルチプロダクトの取り扱い
ざっくり要約
マルチプロダクトの取り扱いって何かっていうと、例えば常に直近の先物でトレード戦略を立てたいとする
けど、直近の先物って言っても、それって”今”の日付によって変わりうるよね
2019年12月限月の商品と2020年1月限月の商品はもちろん別物なので
で、商品が変わるごとに毎回プログラムを組み直すのって非効率だよね
なので、それを良い感じに、商品が変わっても同じように扱うための方法を紹介するよ
感想
ここはマジで1割くらいしか理解できませんでした
数式お化け
アロケーションベクトルってなんだ
多変量ガウス過程ってなんだ
スペクトル分解ってなんだ
お前には読む資格がないんじゃ!と言われてるようで辛かったです
けどまあ直近でマルチプロダクトを扱う予定もないし、一旦忘れて先に進みます
2.5 特徴量サンプリング
ざっくり要約
いくつかの機械学習アルゴリズム(SVMなど)はデータが多すぎるとうまくいかないし、なんにせよノイズデータは少ない方がいいので、ここではノイズデータを除去する(ダウンサンプリング)方法を紹介するよ
例えば常に値を監視して、平均値よりも閾値以上離れた場合だけ抽出する方法とかがあるよ
感想
機械学習はデータ量が多ければ多いほど良いと思ってたから除去するのはちょっと意外だった
まあゴミデータからはゴミしか生まれないっていうしなあ
けど、除去する対象が分かれ苦労はしない気もする
どれがノイズかなんて分からんし
ここは実際にやるにはちょっと難しそう
あとやっぱり数式は分かりそうで分からん
けど雰囲気はつかめたのでとりあえず先に進む
おわりに
ついに数式が登場してしまってつらみです
まだ説明の日本語の意味はなんとなく分かるので挫折せずに進められてますが全部が2.4章のレベルになったら詰みます、、
第3章はこちら