DTWと基準例分割テストを明日からしてみる。
この3週間はある一定区間に区切って合計スパムメール数を予測解析検討してきたが、実際やりたいと思っているのは、決定木分析であり、時系列に並んだデータの決定木分析になる。
代表的なものはDTWと基準例分割テストになるがDTWのアルゴリズムは転がっているものの基準値分割テストのものはあまりうまく理解できなかった。
とりあえず、DTWは一時間ずつもしくは数十通にまとめた時系列データを一つとし
3000通のメールを全てグループにわける、
そのグループでわけたもののそれぞれをユーグリット距離(中学生でもわかる)をもとめいろいろすると。。。
そこからスパムだとかスパムじゃないとかわかるの??って思うが
やってくしかねえ!と思う。