POPFile は新しい(コーパスにない)単語をどのように評価しますか?

POPFile はすべての単語について確率を計算します。コーパスに存在する単語については、コーパスから得られる確率をふつうに計算します。コーパスに存在しない単語については、1/(10 * そのバケツのコーパスの大きさ) という確率を割り当てます。言い換えれば、その単語は “ほとんど” あらわれないということを意味します。

他の選択肢としては、0 (すべてのバケツの確率が 0 になってしまって分類に失敗するでしょう)、あるいは 1 (その単語がいつも現れることを意味するので、分類ミスが起こるでしょう)があります。

原文

 
jp/faq/newwords.txt · Last modified: 2008/02/08 19:49 by 127.0.0.1

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License