完全に決定的な調査結果は出ていませんが、 キーである 間違えたときにだけ学習させる を続けている限りは、バケツのバランスが悪くなることはないようです。ある一つのタイプのメールだけを非常に大量に受け取るユーザであっても、POPFileは高い精度で効果的にメッセージを分類するようです。たとえ単語がバケツごとに等分されていなくてもです。
バランスの悪い コーパスができてしまう可能性は 3 つあります:
一般的な経験則として、バケツを削除、あるいはバケツ内の単語を削除、たくさんのバケツを追加するなどしてバケツを大幅に再構成しようとするなら、単にすべてのバケツを削除して最初から学習をやりなおすのが一番いい結果となるでしょう。
初めて POPFile を使い始めてから 1 ヶ月か 2 ヶ月がたったあとにトレーニングをリセットして最初からやり直すのもいい方法です。その頃までには、おそらくどのバケツにどのメールを分類するかがはっきり決まっていて、POPFile がどのように働くのかがわかっているでしょうから、分類精度がよりよくなるでしょう。
Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.