HaskellとMeCabで長門(その3) : Complement Naive Bayesもやってみた

結局やろうやろうおもいつつ全然やってなかったの続き。

今回は学習時の文書量に差があるときに効果を発揮するというComplement Naive Bayesを実装してみました。

どんなの

調べると、
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転
をみつけました。

そのクラスに属さない文書を使って学習
そのクラスに属さない確率を計算
その確率が一番低いクラスに分類

という、ほぼすべてをひっくり返した方法らしいです。これにより、学習時に文書量の多かったクラスにたくさんの単語が含まれていることにより、全体的な確率にばらつきが出てしまうことが防げるらしいです。

というわけで既存の分類器をあまりいじらずに出来ました。

どうだったの

学習元の文章自体少ないのですが、

長門(艦これ) : 18.1KB
長門有希 : 8.45KB
戦艦長門 : 21.4KB

と、かなり量がバラけています。
これは効果が期待できるのかな、と思ったけど殆ど変わりませんでした。具体的には以下から。
一応前回と同じ文章を使っています。上に表示されている結果はこれまでの普通のナイーブベイズで、下がComplement Naive Bayesです。
f:id:haru2036:20140120210025p:plain