バケツをひとつにまとめる

現在のところ、バケツをひとつにまとめる方法やユーティリティはありません。技術的にはそのようなプログラムを作ることは難しくないでしょう(特に XMLRPC を使用すれば)。しかし、両方のバケツにあらわれる単語のスコアをうまくまとめる方法については意見が一致していません。どのようにまとめられたとしても、いくつかの単語について、他のバケツよりも、まとめられたバケツに重みづけられすぎてしまう可能性があり、これによって分類ミスが起こるかもしれないのです。

この問題についての最近の議論については このスレッド (英語) の後半を参照してください。

まとめたいバケツの中でもっとも単語数の少ないバケツを削除して、削除されたバケツに含まれるであろうメッセージを正しいバケツに学習させることもできます。これらのメッセージのトレーニングをしなおすのには多少時間がかかるでしょう。しばらくの間(低い)分類精度を不満に思うかもしれません。

バケツに大きな変更をしたい場合、最もよい方法はすべてのバケツをリセットして最初から学習を始めることです。しばらくの間 POPFile を使用すると、使い始めたときよりもより正確に学習させることができるでしょう。長い間利用しているユーザの中には、時々これを行ってたまったごみを掃除している人もいます。

なぜこの方法が最もよいのかについての詳細は、 バケツのバランスが悪くなってしまうことはありますか? を参照してください。

原文

 
jp/faq/mergebuckets.txt · Last modified: 2008/02/08 19:49 (external edit)

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License