スパムメールのモデルがクソすぎて悩む
varモデルを作成し、多変量変数を用いた予測をしてみた。
> st.vr<-VAR(day3,p=VARselect(day3,lag.max=365)$selection[1])
>day3
Time Series: Start = 1 End = 365 Frequency = 1
V8 V9 V10 V11 V12 1 0.35347648 0.06539085 13.358882 2 4 2 0.33842754 0.06629072 12.042468 1 6 3 0.53639067 0.11840737 16.747672 1 8 4 0.21693789 0.05858025 12.262753 1 5 5 0.24121483 0.04886615 11.363155 1 6 6 0.55621986 0.07467235 18.796804 3 7 7 0.72545002 0.08605733 23.903614 6 6 8 0.79189871 0.08418996 19.307613 3 8 9 0.83994483 0.08480301 32.862514 6 5
...
365日分のメールデータ
> abc<-(forecast(st.vr))
> plot(abc)
図で見ると青い線がforecastになる、実に横ばいといったところ。
そんなのありえるはずがなく少し怒っているのだ。
次はweek、365日を7日、53回計測にして予測
実際
これはまずいでござる…
これはまずいでござる…