バケツのバランスが悪くなってしまうことはありますか?

完全に決定的な調査結果は出ていませんが、 キーである 間違えたときにだけ学習させる を続けている限りは、バケツのバランスが悪くなることはないようです。ある一つのタイプのメールだけを非常に大量に受け取るユーザであっても、POPFileは高い精度で効果的にメッセージを分類するようです。たとえ単語がバケツごとに等分されていなくてもです。

バランスの悪い コーパスができてしまう可能性は 3 つあります:

  1. コーパス全体のうちで重要な部分(単語)を含む成熟したバケツを削除してしまうと、削除された言葉と同じ言葉を含む残りのバケツにおいて、それらの単語の確率が上がってしまいます。このことにより、十分再分類をしてその影響がなくなるまでの間、残ったそれらのバケツに偏って分類されるかもしれません。
  2. 成熟したバケツからすべての単語を削除することも同じ影響を引き起こすかもしれません。
  3. 十分に成熟したコーパスにあまりメッセージを受信しない新しいバケツを追加すると、いくつかのメッセージを再分類したあと、標準的なメッセージヘッダが新しく作ったバケツに偏って重み付けされてしまう可能性があります。これはほとんどの場合、非常に本文が短くて分類結果のための情報のほとんどがヘッダになってしまうメッセージだけに影響します。この問題は、このバケツがさらに他の単語についてトレーニングされて、ヘッダがあまり重要でなくなってくれば解消するでしょう。これが問題になる場合は、新しく作ったバケツを削除して、バケツを作成する前の設定に戻すことができます。

一般的な経験則として、バケツを削除、あるいはバケツ内の単語を削除、たくさんのバケツを追加するなどしてバケツを大幅に再構成しようとするなら、単にすべてのバケツを削除して最初から学習をやりなおすのが一番いい結果となるでしょう。

初めて POPFile を使い始めてから 1 ヶ月か 2 ヶ月がたったあとにトレーニングをリセットして最初からやり直すのもいい方法です。その頃までには、おそらくどのバケツにどのメールを分類するかがはっきり決まっていて、POPFile がどのように働くのかがわかっているでしょうから、分類精度がよりよくなるでしょう。

原文

 
jp/faq/corpusunbalance.txt · Last modified: 2008/02/08 19:49 by 127.0.0.1

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License