トップ20の単語はなぜ重要なのですか?

履歴タブに表示されるこの表は単語と2つの確率を表示します。それぞれの単語には、その単語 “単体で” 一番分類される確率の高いバケツの色がつけられています。最初の確率は、一番分類される確率が高いと判断されたバケツに対して、その単語 “単体で” 分類される確率です。2番目の確率は、今度はメッセージが実際に分類されたバケツに対する、単語 “単体で” 分類される確率です。表の内容は真ん中の列(一番分類される確率が高いと判断されたバケツに対して、その単語 “単体で” 分類される確率)で降順に並べられています。これら2つの数字は、”バケツ” の “検査” で単語を検査したときにに表示される “確率” と同じものです。この機能は、Paul Graham氏の //A Plan for Spam// (Shiro Kawai氏による日本語訳 //スパムへの対策 ---A Plan for Spam//)における “トップ15の単語” のアイデアに魅了され、統計情報に興味を持つ人のために作られたものです。POPFileはメッセージに含まれるすべての単語をもとに分類分けをしており、また、全体での分類結果とトップ20で表示される分類結果とは異なる場合があるので、この機能を過度に重要視しないようにしてください。

注意: POPFile 0.19.0 より、この “トップ20の単語” を表示する代わりに、分類プロセスに使われた全ての単語の完全な表を表示するようになりました。

原文

 
jp/faq/top20.txt · Last modified: 2008/02/08 19:49 (external edit)

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License