Differences

This shows you the differences between two versions of the page.

jp:faq:goodstatisticlaratings [2008/02/08 19:49] (current)
Line 1: Line 1:
 +====== 統計情報の精度を向上させるのによい方法はありますか?  ======
 +
 +統計情報の精度を向上させる方法はいろいろありますが、人によって受信するメールのタイプが違うので、効果も人それぞれです。方法のうちのいくつかを紹介します。
 +
 +  * //明確なバケツの区別// 。POPFileはそれぞれのバケツにはっきりと違うタイプのメールを分類するように設定されているときに一番効果を発揮します。純粋に望んでいないメール(スパム)と、あなたがよく訪れ、そのメーリングリストに登録している小売店からの必要のないジャンクメールとでは、しばしば分類するのが難しいのです。しかしながら、十分な時間をかけて十分学習させれば、似たようなタイプのメールを分類できるようになるでしょう。
 +
 +  * //学習の一貫性// 。よい統計値を得るための一番大きな鍵は、一貫した学習です。これは間違ったときにはいつも学習させること、また正しいバケツにメールを分類するということを意味しています。最初にバケツを作成したあと、分類する段になってメッセージをどのバケツに分類すべきか悩むことがあります。この場合は、前出の 明確なバケツの区別 を考慮に入れ、バケツの定義を見直す必要があるかもしれません。
 +
 +  * //マグネットの使用// 。いつも決まった送信者から届く、あるいは常に特定の単語が含まれているなど、どのタイプのメールかが特定できる条件がわかっているのであれば、マグネットを使うことは、見かけ上より高い精度を得るためのひとつの方法です。マグネットを使うと、自動分類をバイパスして特定のメールを特定のバケツに移動させることができます。この方法は精度を向上させるのに役立ちますが、POPFile はこれらのメールから何も学習することができません。このため、マグネットをあまり使用すると、長い目で見ると POPFile の精度に悪影響を及ぼすかもしれません。多くの人がマグネットを使わなくても高い精度を得ています。
 +
 +  * //言語// 。POPFileは異なる言語のメッセージを分類するときに問題があるかもしれません。異なる言語はたいてい文法も大きく異なるからです。一部の人々、特にヨーロッパ系の方は異なる言語を使用する人とメールのやりとりをすることがあります。ここで、十分な時間が与えられれば、POPFileは受信したメッセージから学習して分類精度は上昇するでしょう。この部分はさらに開発が進められていて、POPFileが進化すればよりよくなるでしょう。
 +
 +  * //メッセージの長さ// 。ほとんどのメールは十分長くて、POPFileがうまく働くことができるのに十分なデータを含んでいます。メールの本文がとても短い場合でも、たいていPOPFileはメールのヘッダから分類に必要なデータを得ることができます。これらの場合でも、POPFileは疑似単語(pseudoword)を利用して分類を行うことができます。例えば、メッセージが単にひとつの画像だけでできている場合(多くのスパムがそうなっています)などです。非常に短いメールを分類することはとても難しく、このようなメールは未分類(unclassified)となる場合があります。
 +
 +[[FAQ:GoodStatisticlaRatings | 原文]]
 
jp/faq/goodstatisticlaratings.txt · Last modified: 2008/02/08 19:49 (external edit)

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License