統計情報の精度を向上させるのによい方法はありますか?

統計情報の精度を向上させる方法はいろいろありますが、人によって受信するメールのタイプが違うので、効果も人それぞれです。方法のうちのいくつかを紹介します。

  • 明確なバケツの区別 。POPFileはそれぞれのバケツにはっきりと違うタイプのメールを分類するように設定されているときに一番効果を発揮します。純粋に望んでいないメール(スパム)と、あなたがよく訪れ、そのメーリングリストに登録している小売店からの必要のないジャンクメールとでは、しばしば分類するのが難しいのです。しかしながら、十分な時間をかけて十分学習させれば、似たようなタイプのメールを分類できるようになるでしょう。
  • 学習の一貫性 。よい統計値を得るための一番大きな鍵は、一貫した学習です。これは間違ったときにはいつも学習させること、また正しいバケツにメールを分類するということを意味しています。最初にバケツを作成したあと、分類する段になってメッセージをどのバケツに分類すべきか悩むことがあります。この場合は、前出の 明確なバケツの区別 を考慮に入れ、バケツの定義を見直す必要があるかもしれません。
  • マグネットの使用 。いつも決まった送信者から届く、あるいは常に特定の単語が含まれているなど、どのタイプのメールかが特定できる条件がわかっているのであれば、マグネットを使うことは、見かけ上より高い精度を得るためのひとつの方法です。マグネットを使うと、自動分類をバイパスして特定のメールを特定のバケツに移動させることができます。この方法は精度を向上させるのに役立ちますが、POPFile はこれらのメールから何も学習することができません。このため、マグネットをあまり使用すると、長い目で見ると POPFile の精度に悪影響を及ぼすかもしれません。多くの人がマグネットを使わなくても高い精度を得ています。
  • 言語 。POPFileは異なる言語のメッセージを分類するときに問題があるかもしれません。異なる言語はたいてい文法も大きく異なるからです。一部の人々、特にヨーロッパ系の方は異なる言語を使用する人とメールのやりとりをすることがあります。ここで、十分な時間が与えられれば、POPFileは受信したメッセージから学習して分類精度は上昇するでしょう。この部分はさらに開発が進められていて、POPFileが進化すればよりよくなるでしょう。
  • メッセージの長さ 。ほとんどのメールは十分長くて、POPFileがうまく働くことができるのに十分なデータを含んでいます。メールの本文がとても短い場合でも、たいていPOPFileはメールのヘッダから分類に必要なデータを得ることができます。これらの場合でも、POPFileは疑似単語(pseudoword)を利用して分類を行うことができます。例えば、メッセージが単にひとつの画像だけでできている場合(多くのスパムがそうなっています)などです。非常に短いメールを分類することはとても難しく、このようなメールは未分類(unclassified)となる場合があります。

原文

 
jp/faq/goodstatisticlaratings.txt · Last modified: 2008/02/08 19:49 (external edit)

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License