Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
jp:faq:mecab [2007/09/08 13:49] – update for new version amatubujp:faq:mecab [2007/12/08 11:39] amatubu
Line 1: Line 1:
 ====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ====== ====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ======
  
-日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile は、Kakasi を使ってこれを実現しています。+日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile は、標準では [[http://kakasi.namazu.org|Kakasi]] を使ってこれを実現しています。
  
-現在のバージョンの POPFile では分かち書きに使用するプログラムを変更することはできせんが、MeCab 内蔵パーサ(文字種による単純な分割)を使うためのパッチを現在テスト中で。POPFile の次のバージョン(0.22.6 を予定)に含まれ予定です。テストにご協力いただける方を募集中です。動作状況については、[[http://sourceforge.jp/forum/forum.php?forum_id=3073| POPFile フォーラム]]へご報告ください+POPFile 1.0.0 より、分かち書きに使用するプログラムを変更する機能が搭載されした。標準の Kakasi 以外に[[http://mecab.sourceforge.net|MeCab]] と内蔵パーサ(文字種(漢字、ひらがな、カタカナなど)による単純な分割)から選択することがきます。
  
-===== 分かち書きに MeCab を使う =====+MeCab は Kakasi に比べ辞書ファイルが大きくなりますが(IPA 辞書 使用時で約 40MB。Kakasi は約 2MB)、分かち書きの精度が高く、環境もよりますが Kakasi よりも高速に動作します。
  
-POPFile にッチを当てるこにより、分かち書きに使用するプログラムとして Kakasi 代わりに MeCab を使うことがきます。MeCab を使うことよるメリットは、 +内蔵ーサは Kakasi や MeCab いった外部プログラム(モジュール)が不要なため、クロスプラットフォーム版導入時など便利です。しかし、辞書を使用せずに単純文字種類だけを頼りに分かち書きを行うため、分かち書きの精度は高くありません。動作速度ついては辞書を使用しないため非常高速
-  * メール処理高速化(環境よっては Kakasi とあまり変わらないこともあります) +
-  * 分かち書き精度向上(POPFile の分類精度について必ずしも向上するとは限りません) +
-などがあります、 +
-  * 辞書ファイルのサイズが大きい +
-というデメリットがあります(ハードディスクの容量が大きくってる現在ではほとんど問題ならないしょうが)+
  
-===== 分かち書きに内蔵パサ(文字種による分割)を使う =====+===== 分かち書きプログラムのインストル =====
  
-POPFile にパッチを当てることにより、分かち書きに使用するプログラムとして内蔵パーサ(文字種による分割)を使うことができます。内蔵パーサを使うことによるメリットは、 +==== Windows 版 ====
-  * メール処理の高速化 +
-  * 外部モジュールが不要(クロスプラットフォームの導入時などに便利でしょう) +
-などがあります。逆に、 +
-  * 分かち書き精度の低下(POPFile の分類精度については必ずしも低下する訳ではありません) +
-というデメリットがあります。+
  
-===== パッチをインストールする =====+POPFile 1.0.0 以降の Windows 版のインストーラには、分かち書きに使用するプログラム選択する機能が搭載されています。インストーラの言語指定で「Nihongo」を選択するとプログラムの選択画面が現れますので、使用したいものを選択してください。初期設定では、POPFile 0.22.5 以前と同様に Kakasi がインストールされます。どれを選ぶべきかわからない場合は、Kakasi を選択するとよいでしょう。
  
-パッチは以下で入手すとができます。クロプラッフォム版を使用している場合は zip ファルを展開しPOPFile/Classifier フォダの Bayes.pm と %%MailParse.pm%% を入替えす。Windows 版を使用している場合でも同じです。+Kakasi あいは MeCab を選択した場合、それぞれのプログラム(モジュール)辞書自動的にインストールされます。Kakasi と辞書はインストーラに内蔵されていますが、MeCab 内蔵されていないため、ンターネットから自動的にダウンロードされインストーれます。
  
-パッチを適用する前には、必ず POPFile のデタおよびプログラムを[[JP:HowTos:Backup | バックアップ]]してくだ+インストル時に選択したプログラムが使用れるように POPFile の設定が自動的に変更されます
  
-ッチ入手先: +POPFile インストール後に分かち書きに使用するプログラムを追加インストールすることもできます。コントロールネル「プログラムの追加と削除」で POPFile の項目を選択し、「変更」をクリクしてウィザードに従ってください。あるいは、ターメニューからプログラム→POPFile→Uninstall POPFile から追加することもできます。
-  *[[https://sourceforge.jp/tracker/index.php?func=detail&aid=10857&group_id=759&atid=2945| POPFile 0.22.5 日本語パチ(テスト版その 2)]]+
  
-===== MeCab をインストールする =====+==== クロプラッフォム版 ====
  
-パッチは MeCab 0.91 以降でのみ動作します(0.96 推奨)。MeCab と mecab-perl(Perl モジュール)、MeCab の辞書として ipadic をインストールます。+分かち書きに使用したいプログラム(モジュール)と辞書ファイルをインストールします(内蔵パーサ使用する場合は必要ありません)。プログラム本体、辞書ファイル、Perl モジュールをインストールする必要があります。インストール方法については([[JP:HowTos:Kakasi| Kakasi を使用する]] / [[JP:HowTos:MeCab| MeCab を使用する]])を参照してください
  
-==== Windows 版 ====+POPFile は Kakasi 2.3.4+Text::Kakasi 1.05/2.04、MeCab 0.96+MeCab Perl バインディング 0.96+IPA 辞書 で動作確認されています。MeCab についてはバージョン 0.91 以前のバージョンでは動作しませんのでご注意ください。
  
-パッチを適用するのに必要な環境は、 +===== 分かち書きプログラム切替方法 =====
-  * POPFile 0.22.5 (Windows 版) +
-  * %%ActivePerl%% 5.8.x (必ずしも必須というわけではありません。インストールしない場合の方法は後述)+
  
-準備するものは、 +Windows 版のインストーラを利用する場合は、インストール時に分かち書きログラム選択することができます。インストール後設定変更したい場合は、まずコロールパネルの「プログラムの追加と削除」で必要なモジュールをインストールしてください。必要なモュールがイストルされいない場合、設定を変更ても有効になりせん。
-  * mecab-perl 0.91 以降([[http://namazu.asablo.jp/blog/2006/05/01/348707| ナマズログ]]参考、ppm 使ってダウンロード、インストールしてください+
-  * mecab-ipadic (上記ペーを参考に、ダウド&展開し、所定の場所にコピーします。環境変数もあわせて設定してください) +
-  * MeCab 使うパッチ (上記からダウンロードします)+
  
-POPFile から MeCab が使用でるようにするためPerl モジュを POPFile/lib 以下にコピーする必要があります。具体的には +POPFile UI の詳細設定タブを開き、bayes_nihongo_parser パラメタの値変更(kakasi、mecab、internal のいずれか)し、**POPFile を再起動**させます。
-  //C:\Perl\site\lib\MeCab.pm// → //C:\Program Files\POPFile\lib\MeCab.pm// +
-  //C:\Perl\site\lib\auto\MeCab// (フォルダ) → //C:\Program Files\POPFile\lib\auto\MeCab//+
  
-のようにコピーします(デフォルトインストルの場合)。+  * kakasi : Kakasi が使用されます。 
 +  * mecab : MeCab が使用されます。 
 +  * internal : 内蔵パサ(文字種による分割が使用されます
  
-%%ActivePerl%% がインストールされていない場合は、[[http://www.akaneiro.jp/PPMPackages/800/x86/MeCab.tar.gz| ppm でダウンロされるファル]]を直接ダウド&展開し、上記同様に POPFile/lib 以下フォルダコピーます+Kakasi や MeCab 正常にインストールされていない場合は、MeCab → Kakasi → 内蔵パサの順に使用するプログラムが自動的に変更されます(すなわち、MeCab も Kakasi もインストルされていない場合は内蔵パーサが使用されることになります)。現在どプログラムが使用されているかを確認するは、POPFile UI の詳細設定タブを開き、bayes_nihongo_parser の値を確認てください
  
-==== クプラットフォー版 ====+**注意:** 
 + 分かち書きのプグラムを変更することにより、POPFile の分類精度が一時的に低下する可能性があります。これは、ログラムによって分割される位置が異なることにより、学習や分類に使用される文字列が変わってしまうことが原因です。しかしながら、この影響は大きなものではなく、そのまま使用し続けることによって高い分類精度を実現することが可能です。
  
-MeCab と mecab-perl のバージョン 0.91 以降をインストールします。インストール方法などについては[[http://mecab.sourceforge.jp/| MeCab ホームページ]]を参照してください。辞ファイルは、MeCab と一緒に公開されている ipadic をインストールします。+===== 分かちきプログラムの比較 =====
  
-===== 分ち書きプログラムの切替方法 =====+==== Kakasi(漢字→な(ローマ字)変換プログラム) ==== 
 + 
 +  * POPFile 0.22.5 までのバージョンで使われていたプログラムです。 
 +  * MeCab に比べ辞書ファイルのサイズが小さくてすみます(MeCab 約 40MB に対して約 2MB)が、分かち書きの精度は(ひらがなやカタカナで構成される単語の情報が含まれていない、などために)MeCab に比べると低いです。 
 + 
 +==== MeCab(Yet Another Part-of-Speech and Morphological Analyzer) ==== 
 + 
 +  * メールの処理速度が Kakasi に比べて向上します(環境によっては Kakasi とあまり変わらないこともあります)。 
 +  * 分かち書き精度が Kakasi に比べて向上します(POPFile の分類精度については必ずしも向上するとは限りません)。 
 +  * 辞書ファイルのサイズが大きくなります(Kakasi 約 2MB に対して約 40MB)。
  
-ッチを適用しただけでは、分かち書きのプログラムはデフォルトの Kakasi を使用するようになっています。POPFile UI の詳細設定タブを開き、bayes_japanese_parser パラメタの値を mecab に変更し、POPFile を再起動することによって、MeCab を使用すようになります(もし MeCab のインストールがうまくいっていない場合は引き続き Kakasi が使われます。正常に動作しているかどうか確認するには、もう一度詳細設定タブを開いて、bayes_japanese_parser パラメータの値が mecab になっているかどうかを調べてみてください+==== 内蔵パーサ(文字種による分割) ====
  
-bayes_japanese_parser パラメー値を internal に変更することにより、Kakasi も MeCab も使わず、単純に文字種(ひらがな、カタカナ、漢字、英数字など)よっ分割る機能を使うことができまクロスプラットフォーム版を使っている場合などで、Kakasi も MeCab も使用したくない場合などに便利かもしれません(Kakasi と MeCab がいずれもインストールされていない場合、自動的に内蔵パーサを使用するようになっています)。正確な分かち書きではないため、若干精度が落ちる可能性がありますが、ばらくテストした感じでは、それほど影響はないようです+  * メー処理速度が Kakasi や MeCab に比べ向上しま。 
 +  * 外部モジュール不要ですクロスプラットフォーム版の導入時などに便利す)。 
 +  * 分かち書き精度が Kakasi や MeCab に比べて低下します(POPFile の分類精度については必ずも低下する訳ではありません)
  
 ===== POPFile の分類精度比較について ===== ===== POPFile の分類精度比較について =====
  
-2 万通あまりのメールを使用して、Kakasi、MeCab、内蔵パーサ(文字種による分割)を使った場合の分類精度を比較したデータ [[http://amatubu.skr.jp/?POPFile/Accuracy|こちら]]あります。どのパーサを使用しも分類精度にはほとんど違いがないという結果が出ています。+2 万通あまりのメールを使用して、Kakasi、MeCab、内蔵パーサ(文字種による分割)を使った場合の [[http://amatubu.skr.jp/?POPFile/Accuracy|分類精度を比較したデータ]] あります。どのプログラム(パーサを使用した場合でも分類精度にはほとんど違いがないという結果が出ています。
  
 [[:JP:FAQ | FAQ 初心者・初学者向けのQ&A集]] [[:JP:FAQ | FAQ 初心者・初学者向けのQ&A集]]
 
jp/faq/mecab.txt · Last modified: 2008/02/08 19:49 by 127.0.0.1
Old revisions

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License