Dルートで行こう

ハック日記

データが変なまま解析結果を出してみる4.09999

前回の記事で4.09999が続く変なデータが混ざっているといいましたが、

2/3がそのおかしいデータなことに木がつきました

 

とりあえず

 

S 1  S 2  S 3  S 4  S 5  S 6  S 7  S 8  S 9 S 10 S 11 S 12 S 13 S 14 S 15 S 16 S 17 
   7    4    4   10    6    4   10    1    8   10    8    7    8    4    1   10    9 
S 18 S 19 S 20 S 21 S 22 S 23 S 24 S 25 S 26 S 27 S 28 S 29 S 30 S 31 S 32 S 33 S 34 
   9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9 
S 35 S 36 S 37 S 38 S 39 S 40 S 41 S 42 S 43 S 44 S 45 S 46 S 47 S 48 S 49 S 50 S 51 
   9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9 
S 52 S 53 S 54 S 55 S 56 S 57 S 58 S 59 S 60 S 61 S 62 S 63 S 64 S 65 S 66 S 67 S 68 
   9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9 
S 69 S 70 S 71 S 72 S 73 S 74 S 75 S 76 S 77 S 78 S 79 S 80 S 81 S 82 S 83 S 84  N 1 
   9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    2 
 N 2  N 3  N 4  N 5  N 6  N 7  N 8  N 9 N 10 N 11 N 12 N 13 N 14 N 15 N 16 N 17 N 18 
   3    3    3    5    2    2    5    3    2    2    2    3    2    2    3    3    9 
N 19 N 20 N 21 N 22 N 23 N 24 N 25 N 26 N 27 N 28 N 29 N 30 N 31 N 32 N 33 N 34 N 35 
   9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9 
N 36 N 37 N 38 N 39 N 40 N 41 N 42 N 43 N 44 N 45 N 46 N 47 N 48 N 49 N 50 N 51 N 52 
   9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9 
N 53 N 54 N 55 N 56 N 57 N 58 N 59 N 60 N 61 N 62 N 63 N 64 N 65 N 66 N 67 N 68 N 69 
   9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9    9 
N 70 N 71 N 72 N 73 N 74 N 75 N 76 N 77 N 78 N 79 N 80 
   9    9    9    9    9    9    9    9    9    9    9 

のうち9にクラスタリングされているのがそうなので9以外のところだけ抜き出して考察してみます。

1.スパムメール/部分時系列の特徴

S 1  S 2  S 3  S 4  S 5  S 6  S 7  S 8  S 9 S 10 S 11 S 12 S 13 S 14 S 15 S 16  
   7    4    4   10    6    4   10    1    8   10    8    7    8    4    1   10  
内訳
1-2
2-0
3-0
4-4
5-0
6-1
7-2
8-3
9-なし
10-4


特徴的部分時系列 4 8 10


2.非スパムメール

N1 N 2  N 3  N 4  N 5  N 6  N 7  N 8  N 9 N 10 N 11 N 12 N 13 N 14 N 15 N 16 N 17 
 3  3    3    3    5    2    2    5    3    2    2    2    3    2    2    3    3  

1-0
2-7
3-8
4-0
5-2
6-0
7-0
8-0
9-なし
10-0


特徴的時系列 2,3



まとめ

スパムメール
特徴的部分時系列 4 8 10
スパムメール
特徴的時系列 2 3


スパムメールと、非スパムメールのスパムワード特徴的時系列はかなり違う。
スパムメールの特徴的時系列がバラバラなのはスパマースパムフィルターに引っかからないように努力しているので、アダルトや、広告、競馬などのワードの引っ掛かり具合が均等かつ散らばっているからだと思う。
あたりまえだが、非スパムメールはほぼスパムワードが含んでないので回帰直線にしたばあい横一直線の部分時系列を多く含んでいる。なので2,3に集中的に集まってしまったのだと推測できる。

残るは予測だが、こればかりはデータが揃わないと意味のない予測になってしまうので、長い長い解析を待つ次第。
あと、各クラスタをプロットして図にしようとしたが、時系列図にするにはtsでまとめ直さないといけない。
解析には必要がないコマンドがいるので、面倒なので放置。


考察としてはいくらでもできるけど、これを予測したところで意味があるのかは疑問。
例えば20点の次の時系列点を予測したところで、即座にフィルタリングできないし、

届いてからだいぶ経ってフィルタリングすることになる。役立てるとしたら他分野だと思う。

突っ込まれたら相当面倒くさそう。