ベイジアンフィルターを搭載したものはいろいろありますが、採用している「ベイジアン」(ベイズ理論)の中身はみな同じと考えてよろしいのでしょうか?また、学習効果がソフトごとに違うといったことはあるのでしょうか?

ベイズ理論をベースにしているという点では同じです。しかしベイズ理論はそもそも非常に単純な原理で、以下のたった一つの式に集約されてしまいます。

P(A|B) = P(A) * P(B|A) / P(B)

そこで、この理論をスパムフィルターとしてどのように実装するかで、各ソフトウェアで異なる工夫が施され、ゆえに学習効果もソフトごとに違ってきます。

POPFile は、スパムと非スパムの2つのカテゴリーに分ける単なるスパムフィルターではなく、ユーザーが好きなだけカテゴリーを作ることができ、そのカテゴリーにメールを振り分けることができるメール分類ソフトとして開発されました。当然スパム・非スパムの分類だけに的を絞ったものよりも学習速度が遅くなるのですが、そのわりには依然高い学習効果を維持しているのは色々と細かい工夫がされているからです。例えば、0.21.0 から追加されたスタイルシート(CSS)の解釈もその工夫のうちの一つです。

また、日本語メールへの対応と一口に言ってもその方法にはいくつかの方法あり、

  • 1. 形態素解析システムを使う。
  • 2. bigram。日本語部分を 2 文字づつ切り出す。(scbayes で使われている手法)
  • 3. block。漢字、平仮名、片仮名のブロックごとに切り出す。(Mozilla で使われている手法)

があります。このうち POPFile では 1. を採用しており、形態素解析システムとして Kakasi を使用しています。

参照:

 
jp/faq/learningdifference.txt · Last modified: 2008/02/08 19:49 (external edit)

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License