HaskellとMecabで長門に関してのテキストをを判別してみた

前々からちょこちょこやっていたのがやっと一応の完成を見ました。

なにこれ

戦艦長門長門有希と戦艦長門(艦これ)についての文章を判別することを目的にナイーブベイズな分類器をHaskell+MeCabで実装したやつです。

中身

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

この本読みながら実装しました。一応この本で言う117ページとかそこら辺の多項モデルでMAP推定な感じです

動作

Windowsコマンドプロンプト文字化けしたので外部ファイルから読み込むようになりましたけど……
一応全部学習用のデータとは別のテキストを放り込みました。
f:id:haru2036:20140104212307p:plain
(艦これの長門)
f:id:haru2036:20140104212316p:plain
(長門有希)
f:id:haru2036:20140104212319p:plain
(戦艦長門、結果が間違って長門有希になってるけど)

まとめ

なんか最後の戦艦長門だけ何故か艦これじゃなくて長門有希に間違われてるけど他にもいろいろ放り込んだ分にはあらかたイケてる印象、これほんとに全部のアイテムを対象にやっちゃってるけど正規化とかしたらもっといい感じになりそう

追記:
リポジトリ
haru2036/nagato · GitHub