Dルートで行こう

ハック日記

スパムメールのモデルがクソすぎて悩む

varモデルを作成し、多変量変数を用いた予測をしてみた。

> st.vr<-VAR(day3,p=VARselect(day3,lag.max=365)$selection[1])

>day3
Time Series:
Start = 1 
End = 365 
Frequency = 1 

V8 V9 V10 V11 V12 1 0.35347648 0.06539085 13.358882 2 4 2 0.33842754 0.06629072 12.042468 1 6 3 0.53639067 0.11840737 16.747672 1 8 4 0.21693789 0.05858025 12.262753 1 5 5 0.24121483 0.04886615 11.363155 1 6 6 0.55621986 0.07467235 18.796804 3 7 7 0.72545002 0.08605733 23.903614 6 6 8 0.79189871 0.08418996 19.307613 3 8 9 0.83994483 0.08480301 32.862514 6 5
...
365日分のメールデータ


> abc<-(forecast(st.vr))
> plot(abc)

f:id:relorelo:20151027061116p:plain

 

 

図で見ると青い線がforecastになる、実に横ばいといったところ。

そんなのありえるはずがなく少し怒っているのだ。

 

次はweek、365日を7日、53回計測にして予測

 

 

f:id:relorelo:20151027062618p:plain

 

実際

f:id:relorelo:20151027062558p:plain

 

 

これはまずいでござる…

これはまずいでござる…