一般的なヘッダの名前に特定のバケツの印が付けられているのはなぜですか?

あなたは(Received, Content-Type, Date, Return-Path, Message-Id) といった、ほとんどすべてのメールに一般的なヘッダの名前が、特定のバケツに現れやすいことに気がついたかもしれません。それらのほとんどが spam に関する単語と考えられていても、問題ではありません。成熟したコーパスでは、それらの単語が、どれか一つのバケツに著しく重みづけられることはないでしょう。ある単語に特定のバケツの色が付いていたとしても、それがほかのバケツの分類に使われないわけではありません。そして、実際の分類をもっとも強く意味づける、いくつかの単語の組み合わせで、適切なバケツが選択されるのです。

いくつかのヘッダでは、大文字と小文字の違いが有益な情報を意味することがあります。たとえば、header:Message-IDheader:Message-Id、もしくは、header:MIME-Versionheader:Mime-Versionは、異なる結果をもたらすかもしれません。ToFromSubjectヘッダは、常に同じ形式で存在していて分類には役立たないことから、無視する単語に入っています。(訳注:spam でよく使われるヘッダと、メールクライアントがつけるヘッダとでは、大文字小文字の特徴が違っているかもしれないということです)

Recieved ヘッダの場合、Recieved ヘッダの行数が重要です。メールにどれだけ多くのRecieved行があるかによって、spam か、ニュースレターか、または特定のメールアカウントかを意図することがあります。Recieved ヘッダが多いほど、そのメッセージは spam である可能性が高いのです。

原文

 
jp/faq/commonheaders.txt · Last modified: 2008/02/08 19:49 (external edit)

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License