This is an old revision of the document!
POPFile は'擬似単語'を使うことによって、HTMLの表示に関する要素やスパム送信者が良く使うトリックを特別なケースとして扱うことができ、分類精度を上げる助けにしています。'擬似単語'はメールにどんなヘッダーが使われているか、また From、To、CC や Subject といったヘッダーにどのような単語が使われたかを分析するためにも使用されます。
POPFileは単語の大文字小文字を無視しますし、単語が何らかの辞書などに含まれていないからといってそれを一般化したりはしません(例えば、わざと綴りを間違えたり、l や i を 1 に変えている単語は、修正されずにそのまま POPFile に記憶されるという意味だと思います。訳者注)。
html:commentといった疑似単語を使うことによってPOPFileを欺くことができるのではないかという質問を受けます。もしこのような疑似単語が使われたとき、POPFileはこれをhtmlとcommentという2つの別の単語に分割して解釈し、保存します。ですから、メールの本文に疑似単語を使うことによってPOPFileをだますことはできません。
以下は、POPFileが解釈することができる疑似単語のリストです。
- cc:<address>
- (CC ヘッダーに使われている名前およびアドレス)
- charset:<various>
- (メール中に使われているキャラクターセット)
- encoding:<various>
- (エンコーディング方法)
- from:<address>
- (From ヘッダーに使われている名前およびアドレス)
- header:<various>
- (メール中に使われているヘッダー)
- html:authorization
- (認証情報を含んだ URL)
- html:colordistance<number>
- (バックグランドカラーとフォアグランドカラーの色の違い)
- html:comment
- (HTMLのコメント)
- html:cidsrc
- (cid によって添付ファイルを参照するイメージソース)
- html:cssdisplay<value>
- (CSS で定義された表示方法)
- html:cssfontsize<size>
- (CSS で定義された文字のサイズ)
- html:cssvisibility<value>
- (CSS で定義された表示されるかどうかの設定)
- html:css*color<color>
- (CSS で定義された色)
- html:emptypair
- (何も用を成さない意味のない HTML タグ)
- html:encodedurl
- (エンコードされたURL)
- html:fontsize<size>
- (文字のサイズ)
- html:iframeremotesrc
- (インターネット上のソースを参照する iframe タグ)
- html:img*<pixels>
- (イメージの高さと幅)
- html:imgremotesrc
- (インターネット上のソースを参照するイメージ)
- html:invalidtag
- (偽の HTML タグ)
- html:numericentity
- (数字で表された URL)
- html:td
- (テーブルの定義)
- html:*color<color>
- (様々な方法による色の定義)
- mimeextension:<various>
- (添付ファイルの拡張子)
- mimename:<various>
- (添付ファイルのファイル名)
- spamassassin:<various>
- (SpamAssassin がすでに分類したかどうか)
- spamassassinlevel:spam
- (SpamAssassin の判定すべて)
- subject:<various>
- (Subject ヘッダーに使われている単語)
- to:<address>
- (To ヘッダーに使われている名前およびアドレス)
- trick:dottedwords
- (間にピリオドが入れられた単語)
- trick:invisibleink
- (HTMLで色を付けられて見えなくなっている単語)
- trick:spacedout
- (間にスペースが入れられた単語)
これらの疑似単語の元になっている、スパム送信者が使うトリックについての詳しい情報は、
The Spammers' Compendium で見ることができます。