Dルートで行こう

ハック日記

はてなブログを卒業する件

こちらに移転しました。 relorelo Blog on Strikingly 短い間でしたが、御世話になりました。

書こうかどうか迷ったけど書く

前にはてなブログがつながんねええええええええ!という記事を書いた。 原因がはっきりしたので記しておく 私の環境は Mac Chrome そしてプラグインにはadblock とcaptureなんとかとはてなブログいいね通知 の3つのプラグインがはいっている 最初はクローム…

データが変なまま解析結果を出してみる4.09999

前回の記事で4.09999が続く変なデータが混ざっているといいましたが、 2/3がそのおかしいデータなことに木がつきました とりあえず S 1 S 2 S 3 S 4 S 5 S 6 S 7 S 8 S 9 S 10 S 11 S 12 S 13 S 14 S 15 S 16 S 17 7 4 4 10 6 4 10 1 8 10 8 7 8 4 1 10 9 S …

とりあえずクラスター分析の結果

データが変になってて4.0999がずっと続くデータ群が混ざってた なんでだ?もう一度、ARFFを生成する。 kmeans(data,10)として、結果、9としてクラスタリングされているところがエラーデータが入っているところである。 これでは未来予測ができないため、ARFF…

Eメールにおいての部分時系列クラスタによる分析手法のまとめ

アホみたいに難しく書いてあるものが多いがクッソ簡単なので自分なりに分かりやすくまとめる。 1.部分時系列とは (グラフは同じですが、都合よく考えてください) 時系列データを分割したデータ。例えば60分(60点)のデータがあるとする。 何分割するか、何…

滑走窓方式データ整形 Rscript

滑走窓方でなくても使えるスクリプトです。 とりあえず部分時系列を得たい方推奨です。 ans<-spliting(data,1,3500,20) kmeans(ans,3) data:時系列データ。複数行不可 start:与えた行列のスタートしたい地点。1が推奨 end:与えた行列の終わりにしたい地点。…

Rscript をテストした

行のラベルを動的に配置することができるか、テスト test <- function(){ x <- matrix(1:2, nrow=1, ncol=2) # 行列rownames(x) <- c("up") # 行 xx <-c("unchi")xxx <-c("unchi2")xx <- rbind ( xx, xxx ) colnames(x) <- c(xx) # 列の名前 return(x) } > a…

データサイエンティスト養成本を買った感想

どことは言わんが、ネットで持ち上げられているデータサイエンティストの入門書?を買ってみた。 期待していたより簡略で分かりやすい本であり、ネットで調べるよりも圧倒的な時間コスト削減に役立っている書籍だと思った。 私が前回記事に書いたARIMAモデル…

DTWと基準例分割テストを明日からしてみる。

この3週間はある一定区間に区切って合計スパムメール数を予測解析検討してきたが、実際やりたいと思っているのは、決定木分析であり、時系列に並んだデータの決定木分析になる。 代表的なものはDTWと基準例分割テストになるがDTWのアルゴリズムは転がってい…

いやー拙者学習不足でござった

前に書いた記事に横ばいのArimaモデルから生成される予測を書いたのでござるが 自己回帰和分平均にギザギザを求めている方がバカでござった。 改めて訓練データの分散を見てみるときれいにギザギザがなっており下りもしないが上がりもしないものであり、移動…

Arimaモデル生成とbox検査を行った結果

This Script http://www.ec.kansai-u.ac.jp/user/arakit/documents/lbrts.pdf ちなみにRをものすごく網羅的に詳しく説明してあるため有用的と言える。ここからの引用?? http://www.di.fc.ul.pt/~jpn/r/ts/index.html > plotForecastErrors <- function(for…

スパムメールのモデルがクソすぎて悩む

varモデルを作成し、多変量変数を用いた予測をしてみた。> st.vr<-VAR(day3,p=VARselect(day3,lag.max=365)$selection[1])>day3 Time Series: Start = 1 End = 365 Frequency = 1 V8 V9 V10 V11 V12 1 0.35347648 0.06539085 13.358882 2 4 2 0.33842754 0.0…

記事更新が遅れたのはhatenabogが異様に遅かったからだ

快適快適!な回線ではてなブログにいざ記事を書きに行こうと思ったら ものすごく読み込みに時間がかかった 特にヘッダーの読み込みが遅くうんこうんこしていたわけだが やっとヘッダーが読み込まれ記事を書くをくりっこしたところ プログレスの丸いやつが回…

作業メモ

Rでglmを実行するとこうなった。 factorでnon-spamとspamの2クラスに分けていることが原因 > fit <- glm(spam ~ log.time, data = k, family = poisson)Error in if (any(y < 0)) stop("negative values not allowed for the 'Poisson' family") : missing v…

作業メモ

kaiseki_data.arff から 余計なものを削除する 40119,1199686935,3,20498,30870,text,non-multipart,2,0.06931702,0.01223242,1,spam40714,1201049779,0,22059,30870,text,non-multipart,2,0.07904412,0.01102941,2,spam40712,1202712729,3,21523,30870,text…

RStudio(R言語)に触れて思ったこと。

とりあえず、RStudioは読み込むURIの中に2byteがあったらエラーが出て起動しない。 RStudio用のアカウントを作成するんだ! Githubと連携させることもできるのでまあまあ便利。 とりあえずrepo https://github.com/pushnanashi/Spam_Mashine_Learning

Bitcoinの予測、時期について

BItcoinの歴史を学んでいくと、MtGoxの大暴落以降徐々に下がっている傾向にあることが分かった。 前日、それを学習データとして加えテストしてみた結果、中々なものだという記事を書いたがそれは間違いだったことが今理解できた。 過去900日を学習データ(モ…

Bitcoin and Weka by Linux

Linux 上でwekaを動かす。 Linuxもjavaもよくわからない人は絶対先にwindowsGUIのWEKAを実行しまくることをお勧めしたい。 wekaのLinuxverをDLし任意の場所に回答(私の場合は/root/) javaのクラスパスを変えたくない人は以下のように実行 java -cp /root/w…

Bitcoinを機械学習させた結果  -Bitcoinの予測-

3年分900日を学習データ600日とテストデータ300日にわけて検証を行った。 ちな、要素として Date,Open,High,Low,Close,Volume by bitcoin,Volume by最近,総量 としている。Dateはその日の00:00:00をUNIXTIMEに変換したものであり、High高値の瞬時的時…

Bitcoinを予測する際の要素検証

引用「Bayesian regression and Bitcoin」ベイズ回帰とBitcoin http://arxiv.org/pdf/1410.1231.pdf ・twitter ・重み付き多数決 ・時間を3分割した中で各時間トップ60のトレーダーを注目 数式はそもそも見なくていい。ベイズも適当に回帰線として考えてお…

Bitcoinの機械学習って未発達ってところじゃねえな

諸事情で海外サーバを借りるため1マンほどBitcoinに突っ込んで 7500円ほどをBitcoinに監禁したまま放置してた。当時レートで27500円。 今みたら結構高騰してて30500円で、すぐ売った。 なんか知らんが8200円になったという話。 気になったので検索して調べ…

R言語…しゅごい

R言語マニュアル https://cran.r-project.org/doc/contrib/manuals-jp/Mase-Rstatman.pdf wekaでは統計学の真似事しかできず、細かい値が分からないのでR言語をやらないといけない。 Rには一応RwekaというものがありWekaれることも確認。 ・Wekaった結果 spa…

後輩が力作を作ってきた件

今、ユーザがAIを組みそれを戦わせる対戦ゲームをチームで開発中ですが、 Web,DB担当の私は正直物足りない担当でした。 なのでかなり放置をしてたのですが、後輩が紹介ムービーを作ってきたので見たら 超力作で「ホゲー」と思ってしまった。 急ピッチででき…

明日は内定式だぞ!

だぞ! 基本情報持ってないから受験しなさいって言われて 勉強してないですなんて言えないから 「もうバッチりんごっっっっw」って行ってしまってるぞ こちとら卒論で忙しいんじゃ!

make_kaiseki_data

timeをソートできていないのでソートする。 そもそもUNIXtimeの算出が間違っているので変更する

人の研究をみて思った事

後輩にマルウェア感染後DNS問い合わせによってマルウェアの挙動を察知する みたいな研究をやっている人がいたが 「HTTP でPOST GET みれば???」とケチをつけそうになった。 HTTPbotnetとかはPOST挙動を見ていくとすぐにわかるし(たいてい Gate.php にPOST…

Crypterを解析し、自分のCrypterを作成する話 1

Crypterとは犯罪者であるハッカーが作成したマルウェアなどをアンチウイルスソフトに検知させないため行う、暗号化支援ソフトである。 大まかに Webベースとソフトウェア型に分かれており 機能としては暗号化/AntiVM/icon change/リバースエンジニアリング対…

愚痴(メモ)

今やっていることについてのまとめ IPがホスティングIPでなくshared IPのため、ホスティングIPにする。 先行研究のUnixTimeの計算が大幅に間違っているためそれを修正し、arffに追加 とりあえず、なぜ時系列に着目するかだけを書き記す。 今までの解析法だと…

make_kaiseki_data

大まかな概要と出力ファイル、使用プログラムを記載 使用プログラムと出力ファイルは出現順に並んでいるものとする。 make_kaiseki_data.csh ip.pl cat $z |perl make_matching_table.pl maildir下にあるmailをmake_matching_table.plに投げる time_table_pl…

Torの中継を政治値を加えて中継していくのってどうなん?

ずっと思ってたんだけど、単に繋いでいくってアホらしくない? 中継node数n個だと考えて 俺(うんこ)->Tor1 -> Tor2 -> ... ->Tor(n) ->目的サイト 政治的側面を備えた値を付与して、目的サイトにとって仲の悪い国に中継していってほしいなと思った。 例え…