【読書メモ】ファイナンス機械学習【第4章】

はじめに

ファイナンス機械学習 金融市場分析を変える機械学習アルゴリズムの理論と実践
という書籍を読み始めました

せっかくなので内容を忘れないようにメモしていこうと思います
超ざっくり要約と一言感想的な感じで

第1章はこちら
第3章はこちら

4.1 はじめに

ざっくり要約

これまでの機械学習の研究だと観測値が独立同分布という前提があったけど、これは実際には成り立たない
ので、成り立たない前提でもいけるような標本の重み付けの方法を紹介するよ

感想

独立同分布が分からんのでググると、観測値たちが相関してないよって意味らしい
まあ相関とか考慮すると大変そうだもんなあ
「標本の重み付け」の標本ってなんのことだろう?観測値とは違うのかな?
よく分からん

4.2 重複した結果

ざっくり要約

例えば、3日単位で売買したいときに、

  1. 12/1~12/3
  2. 12/2~12/4
  3. 12/3~12/5
    のようにデータを作成すると、期間の重複が発生してしまう
    機械学習だとこの重複はよくないので、回避したい

けど例えば

  1. 12/1~12/3
  2. 12/4~12/6
  3. 12/7~12/9
    のようにすると、無駄が多くなる

この問題の解決策を紹介するよ

感想

重複してたら良くないのってなんでだろう?
なんとなくダメっぽいのは分かるけどちゃんとした理由が分からぬ、、
誰か教えてください、、

4.3 同時発生的なラベルの数

ざっくり要約

任意のデータがどれくらい他のデータと重複してるかを数値で表したいよね
その計算プログラムを紹介するよ

感想

いや、コードは嬉しいんだけどさあ、、

Jupyter Notebookでくれ!!!

中のデータの形見ないと結局よく分からんのよ!!!

まあ次からよろしく頼むよ、、(何様)

4.4 ラベルの平均独自性

ざっくり要約

あるデータについての他のデータとの重複のなさを独自性と呼ぶよ
独自性が全体の中でどのくらい高い(低い)かを表す数値を平均独自性と呼ぶよ
その計算式を紹介するよ
独自性は期間の終了時に初めて計算可能になるので期間の最初の時点では未来データになるのだけど、テストデータでは使わない(訓練データでのみ使う)からOKだよ
平均独自性は特徴量として使えるよ

感想

訓練データとテストデータって期間が異なるだけでカラムは必ず一致するものだと思ってたけど違っても良いの?
未来のデータでも、訓練データになら使っても良いの?
誰か教えてください、、

あと平均独自性って自分の感覚だと最初らへんと最後らへん以外全部同じ値になるイメージなんだけど、
どういう場合に違う値になるのだ?
そもそもの理解が間違ってる気もしてきた、、
誰か教えてください、、

4.5 分類器のバギングと独自性

ざっくり要約

逐次ブートストラップ法を紹介するよ
逐次ブートストラップ法はなるべく独自性の高いデータだけになるようにデータを抽出する方法だよ

感想

数式はよく分からんから読み飛ばした
まあやりたいことは理解できたのでとりあえずいいや

4.6 リターンによるサンプルの重み付け

ざっくり要約

リターンが大きいラベルは重要度を高くした方がいいよね
あと独自性の高さでも重み付けした方がいいよね

感想

まあそうですよね
けどそもそもラベルを0と1にするんじゃなくてリターンの大きさにすればいい気もするんだけど、、
と思ったけどメタラベリングだと0と1じゃないとその後が使いにくいからやっぱり0と1の方がいいか

4.7 時間減衰

ざっくり要約

新しいデータほどより重視すべきだよね
そのための計算式を紹介するよ

感想

はーい

4.8 クラスの重み付け

ざっくり要約

フラッシュクラッシュとか、滅多に発生しない現象はそのままだと外れ値扱いになりかねないので、
重み付けするのもいいかもね

感想

はーい

おわりに

ちょっと抽象的な話が多くなってきて、何度も読み返してやっと少しだけ理解できたという感じ
最初の1回読んだだけだとほとんど意味が分からなかったw
もっと全体的に具体例が欲しいんだよなあ

第5章はこちら

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×