誤検出や見逃しとは何ですか?なぜそんなに重要なのですか?

メールフィルタの効果についての統計情報は誤検出(false positive)と見逃し(false negative)という2つの概念で成り立っています。POPFileはスパムフィルタではなくて一般的なメール分類ソフトなので、POPFileと他のスパムフィルタでは、これらの言葉の意味が異なっています。

メールをスパムとスパム以外のメール(訳注:原文では ham )に分類する普通のスパムフィルタは、スパム以外のメールをスパムのカテゴリに分類してしまった場合を誤検出、スパムをスパム以外のメールのカテゴリに分類してしまった場合を見逃しと表現しています。

しかし、ご存知のとおり、POPFileは複数のカテゴリ(バケツ)を扱うことができます。POPFileはたまたまスパムのフィルタリングがとても得意なメール分類ソフトです。しかしこのことは、誤検出と見逃しという言葉の定義が、スパムかスパムでないかという単純な問題だけで成り立つ訳ではないということも意味しています。そのかわり、これらの言葉はそれぞれ個別のバケツの視点から定義されます。POPFileが本当は B というバケツに分類すべきメッセージを A というバケツに分類してしまったとしましょう。バケツ A からみると、バケツ A に属するという間違った印がつけられたわけですから、これは誤検出です。逆にこれをバケツ B からみると、見逃しとなります。

したがって、POPFileの世界では、誤検出と見逃しはいつもそれぞれのバケツに関係します。スパムフィルタの世界では、これらの言葉はいつもスパムのカテゴリに関係して使われます。

誤検出と見逃しはスパムの分類わけと関係する場合には特に重要です。見逃し(スパムが inbox に保存されてしまう)はいらいらするだけですが、誤検出の場合は重要なメッセージがスパムフォルダに保存されてしまうか、よりひどい場合には、削除されてしまう可能性があります。

POPFileが分類を間違える度に学習させるようにすれば、誤検出や見逃しは減っていくでしょう。しかし、間違いはいつでも起こりうるということに注意しなければいけません。ですから、POPFileがスパムだと判断したメールを単純に削除すべきではありません。メールクライアントで専用のフォルダに移動するようにしておき、そのフォルダに重要なものが入っていないかどうか定期的にチェックするようにしましょう。

参照:

原文

 
jp/faq/falsenegativepostive.txt · Last modified: 2008/02/08 19:49 by 127.0.0.1

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License