POPFile - Automatic Email Classification

言葉のサラダ（無意味な単語の羅列）が（分類に）影響しないのはなぜですか？

スパマーは、スパムフィルターを避けるために“ 言葉のサラダ（無意味な単語の羅列）” を使い始めました。スパマーはランダムに spam のようではない、辞書に載っている単語を多く使ったり、でっち上げた単語で埋め尽くしたりします。これらは、ニュース記事だったり、本の一節だったりします。

あまり一般的でない単語をたくさん使うことは、未知の単語は spam のようではないと考える古いタイプのフィルターには効果があったかもしれません。それらの単語を spam のようではないと考えるのではなく、POPFile は未知の単語をバケツのサイズによって決まるとても小さい値に設定し、バケツにはほとんど存在しないものとして考えます。重要な点は、見知らぬ単語は多くのバケツにわたって、だいたい同じように重みづけられる( バケツのサイズに基づいて )ので、この影響は公平だということです。

POPFile では、みんなの（コーパスに登録されている）spam らしい単語や spam らしくない単語は、（これまでに受信した）メールによって異なるため、言葉のサラダはあまり効果がないのです。スパマーはみんなにとって spam らしくない単語を見つけることはできません。一見、spam らしくない簡単な単語が、実はspam らしかったりします。偶然にも、我々が選んだ簡単（simple）な単語は、“simple” です。この単語は、言葉のサラダの議論の中で出てきたもので、spam らしさが大きく変化したものです。チェックした 7 人のうち 4 人にとっては、この単語はよい spam インジケータだったのです。

ユーザ	simple という単語の状況
Brian	非常に spam らしい、0.82 の確率
James	低い出現頻度
Jeremiah	spam らしい
Jim	spam らしい
Joseph	学校のメールの確率が最も高く、0.64
Robbie	0.81 の確率で spam らしい
Troy	どのバケツにも存在しなかった

John は、2004 MIT Spam conference のプレゼンテーションにおいて、でたらめな（本当に最悪な場合、あるいは “しらみつぶしの”）言葉のサラダによる攻撃はいくらかの少ないケースでは有効に働く（訳注：フィルタを通り抜けることができる）ことを示しました。

重要なのは、多くの言葉のサラダを使用することによって、少ない割合のメッセージが、少ない割合の人々に（フィルタを通り抜けて）届くかもしれないということです。しかしそうすると、スパマーはどうやって彼らの大きくなる薬を宣伝すればよいのでしょう？宣伝するための URL を書かなければ spam としてあまり役に立ちません。さらに、POPFile では、メールヘッダも分類に役立つということも忘れないでください。（訳注：多くのでたらめな単語を使って偽装したとしても、それらの単語はあまり分類には使用されず、誘導先の URL やメールヘッダの特徴から spam かどうかを判断できるということです）

参照:

FAQ:POPFile は新しい（コーパスにない）単語をどのように評価しますか？

原文