Naive Bayesしたい

はてなブックマークでも使われてるComplement Naive Bayesを解説するよ
http://d.hatena.ne.jp/tkng/20081217/1229475900

俺もこれやってみたいのだ。
CPAN調べてみたらAI::Categorizerってのがあるし、Lingua::JA::Categorizeはまさに日本語ドキュメントをカテゴライズするものっぽい。

http://d.hatena.ne.jp/download_takeshi/20081124/1227539934
Algorithm::NaiveBayesというモジュールがありまして…実際に手作業でこれらの単語の収集作業をやっていくのは、さすがにダルビッシュなわけです。
だそうでさすがにダルビッシュなのはつらいなということで。 やってみた。

コンピュータ用語 http://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF%E7%94%A8%E8%AA%9E%E4%B8%80%E8%A6%A7
コンピュータゲーム http://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF%E3%82%B2%E3%83%BC%E3%83%A0%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%88%E3%83%AB%E4%B8%80%E8%A6%A7
アニメ作品一覧 http://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%8B%E3%83%A1%E4%BD%9C%E5%93%81%E4%B8%80%E8%A6%A7
スポーツ http://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%9D%E3%83%BC%E3%83%84%E7%AB%B6%E6%8A%80%E4%B8%80%E8%A6%A7
http://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%9D%E3%83%BC%E3%83%84%E9%81%B8%E6%89%8B%E4%B8%80%E8%A6%A7%E3%81%AE%E4%B8%80%E8%A6%A7
http://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%9D%E3%83%BC%E3%83%84%E3%81%AE%E3%83%97%E3%83%AD%E3%83%AA%E3%83%BC%E3%82%B0%E4%B8%80%E8%A6%A7
学問一覧 http://ja.wikipedia.org/wiki/%E5%AD%A6%E5%95%8F%E3%81%AE%E4%B8%80%E8%A6%A7

こういうところを探してカテゴリーっぽいキーワードを集めた。

Complement naive Bayesでcpan検索してもでてこない。 Native bayesでやって、「属さない確率」をもとめればいいのかな?かな
とりあえずメモ

とかネットでいろいろ調べてみて思ったけど、オライリー集合知プログラミングって本もってたので、まさにそういう本なのでちゃんと読んでみる。