Dルートで行こう

ハック日記

Bitcoinを機械学習させた結果  -Bitcoinの予測-

3年分900日を学習データ600日とテストデータ300日にわけて検証を行った。

ちな、要素として

Date,Open,High,Low,Close,Volume by bitcoin,Volume by最近,総量

としている。Dateはその日の00:00:00をUNIXTIMEに変換したものであり、High高値の瞬時的時間やLow低値の瞬時的時間を表しているものではない。

 

 

目安として相関係数を用いているCorrelation coefficientとは相関係数のことであり、

1もしくは-1に近ければ近い方が良いとされる。

 

学生なら、ここで打ち止めだろうけど回帰が出たからと行ってモデルで生成した予測とテストが離れてる値なら意味ないぞ。

 

Mean absolute errorとは端的にいえば、予測した値とテストデータの平均誤差である。

指標とすべきはここだと考えよう。

 

まとめとして

Multilayerperseptronは神がかった予測値を出してくれることが証明されたこと。

Multilayer>単純な回帰>その他重回帰となった。

 

これでトランザクション量とredditの定量化、それにもっと時分割したデータがあれば

即座に計算を返せるモデルの完成になると思う。

誰か、分単位秒単位のデータ持ってない?どうさがしても日ごとのしかないんだ…

 

 

以下検証結果

 

1.要素OPENを検証

重回帰分析による解析アルゴリズムが良好、単純回帰分析が極めて有効であることが証明された。

open値においての予測値とテストデータの誤差は大きい。日の開始要素なぞどうでもいいと思うが。。。

 

multilayerperceptron

=== Summary ===

Correlation coefficient 0.9901
Mean absolute error 202.0657
Root mean squared error 224.4878
Relative absolute error 68.8526 %
Root relative squared error 71.3288 %
Coverage of cases (0.95 level) 100 %
Mean rel. region size (0.95 level) 395.6414 %
Total Number of Instances 325

 

gausianprocess

=== Summary ===

Correlation coefficient 0.9901
Mean absolute error 202.0657
Root mean squared error 224.4878
Relative absolute error 68.8526 %
Root relative squared error 71.3288 %
Coverage of cases (0.95 level) 100 %
Mean rel. region size (0.95 level) 395.6414 %
Total Number of Instances 325

 

回帰分析

=== Summary ===

Correlation coefficient 0.9938
Mean absolute error 12.1635
Root mean squared error 34.637
Relative absolute error 4.1446 %
Root relative squared error 11.0056 %
Total Number of Instances 325

 

単純回帰

Correlation coefficient 0.996
Mean absolute error 12.4549
Root mean squared error 27.6223
Relative absolute error 4.2439 %
Root relative squared error 8.7767 %
Total Number of Instances 325

 

2.要素HIGHを検証

重回帰分析による解析アルゴリズムが良好、単純回帰分析が極めて有効であることが証明された。

 

Mean absolute errorが重回帰、単純回帰双方とも良好

 

multilayer
=== Summary ===

Correlation coefficient 0.9963
Mean absolute error 16.5337
Root mean squared error 36.992
Relative absolute error 5.4198 %
Root relative squared error 11.2352 %
Total Number of Instances 325

 

gaussian

=== Summary ===

Correlation coefficient 0.991
Mean absolute error 218.2416
Root mean squared error 241.2132
Relative absolute error 71.5397 %
Root relative squared error 73.2613 %
Coverage of cases (0.95 level) 100 %
Mean rel. region size (0.95 level) 395.0603 %
Total Number of Instances 325

 

線形回帰

=== Summary ===

Correlation coefficient 0.9978
Mean absolute error 7.9046
Root mean squared error 21.6529
Relative absolute error 2.5911 %
Root relative squared error 6.5764 %
Total Number of Instances 325

 

単純線形回帰

=== Summary ===

Correlation coefficient 0.9965
Mean absolute error 12.6861
Root mean squared error 30.7595
Relative absolute error 4.1585 %
Root relative squared error 9.3423 %
Total Number of Instances 325

 

3.要素Lowの検証

gaussian

=== Summary ===

Correlation coefficient 0.9846
Mean absolute error 198.0522
Root mean squared error 223.042
Relative absolute error 70.7828 %
Root relative squared error 74.8572 %
Coverage of cases (0.95 level) 100 %
Mean rel. region size (0.95 level) 394.7339 %
Total Number of Instances 325

 

multilayer


=== Summary ===

Correlation coefficient 0.9938
Mean absolute error 17.6348
Root mean squared error 35.4825
Relative absolute error 6.3026 %
Root relative squared error 11.9086 %
Total Number of Instances 325

 

線形回帰


=== Summary ===

Correlation coefficient 0.9905
Mean absolute error 18.0418
Root mean squared error 43.6163
Relative absolute error 6.4481 %
Root relative squared error 14.6385 %
Total Number of Instances 325

 

単純回帰


=== Summary ===

Correlation coefficient 0.9914
Mean absolute error 15.4175
Root mean squared error 42.1579
Relative absolute error 5.5101 %
Root relative squared error 14.149 %
Total Number of Instances 325

 

 

スパムメールの時系列分析が全く相関がでず進んでない中、こんな簡単に拾えるデータで相関が出てるのは誠に悔しい死にたい。

それと、APIである程度トランザクションを掘れ、毎秒スクリプト回せば分単位の値段もわかる。

これを使って、予測サイトを作ろうと思ってる。

僕が市場を動かすんだ!