Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
jp:faq:mecab [2007/04/15 09:27] amatubujp:faq:mecab [2007/12/08 11:39] amatubu
Line 1: Line 1:
 ====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ====== ====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ======
  
-日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile は、Kakasi を使ってこれを実現しています。+日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile は、標準では [[http://kakasi.namazu.org|Kakasi]] を使ってこれを実現しています。
  
-現在のバージョンの POPFile では分かち書きに使用するプログラムを変更することはできません、MeCab を使うためのパッチが現在テスト中です。POPFile の次のメジャーバージョンアップ(0.23 を予定)に含められばと思っていす。テストにご協力いだける方を募集中です動作状況ついては、[[http://sourceforge.jp/forum/forum.php?thread_id=11521&forum_id=3073POPFile フォーラム]]へご報告ください+POPFile 1.0.0 より、分かち書きに使用するプログラムを変更する機能搭載されまた。標準の Kakasi 以外に、[[http://mecab.sourceforge.net|MeCab]] と内蔵パーサ(文字種(漢字、ひらがな、カタカナなど)による単純な分割)から選択することができます
  
-===== 分かち書きに MeCab を使う =====+MeCab は Kakasi に比べ辞書ファイルが大きくなりますが(IPA 辞書 使用時で約 40MB。Kakasi は約 2MB)、分かち書きの精度が高く、環境もよりますが Kakasi よりも高速に動作します。
  
-POPFile にッチを当てるこにより、分かち書きに使用するプログラムとして Kakasi 代わりに MeCab を使うことがきます。MeCab を使うことよるメリットは、 +内蔵ーサは Kakasi や MeCab いった外部プログラム(モジュール)が不要なため、クロスプラットフォーム版導入時など便利です。しかし、辞書を使用せず単純に文字種類だけを頼りに分かち書きを行うため、分かち書きの精度は高くありません動作速度ついては辞書を使用しないため非常高速
-  * メール処理高速化 +
-  * 分かち書き精度の向上 +
-などがありま、 +
-  * 辞書ファイルのサイズが大きい +
-というデメリットがあります(ハードディスクの容量が大きくってる現在ではほとんど問題ならないしょうが)+
  
-==== パッチをインストールする ====+===== 分かち書きプログラムのインストール =====
  
-パッチは以下で入手することができます。クロスプラットフォーム版を使用している場合は zip ファイルを展開し、POPFile/Classifier フォルダの Bayes.pm と MailParse.pm を入れ替えます。Windows 版を使用している場合でも同じですが、専用のインストーラも用意されています。+==== Windows 版 ====
  
-パッチには、分かち書きに MeCab を使う以外に、単純に文字種によって分割する機能や、ほかのバグ修正、若干のパフォーマンス向上含まれています。パッチ適用する前には、必ず POPFile のデータおよびプログラムを[JP:HowTos:Backup | バックアップ]してください。+POPFile 1.0.0 以降の Windows 版のインストーラには、分かち書きに使用するプログラムを選択する機能が搭載されています。インストーラの言語指定で「Nihongo」選択するプログラムの選択画面が現れますので、使用したいもの選択してください。初期設定では、POPFile 0.22.5 以前と同様に Kakasi がインストールされます。どれを選ぶべきかわからない場合は、Kakasi を選択するとよいでしょう
  
-パッチ入手先: +Kakasi あるいは MeCab を選択した場合、それぞれプログラムモジュール)と辞書が自動的にインストールされます。Kakasi と辞書はインストーラに内蔵されていますが、MeCab は内蔵されていないため、インターネットから自動的にダウンロードされ、インストールされます。
-  *[[http://sourceforge.jp/tracker/index.php?func=detail&aid=10287&group_id=759&atid=2945| POPFile 0.22.4 日本語パッチスト版その2)]]+
  
-==== MeCab をインストールる ====+インストール時に選択したプログラムが使用されように POPFile の設定が自動的に変更されます。
  
-パッチは MeCab 0.91 以降のみ動作します(0.95 にて動作確認)MeCab と mecab-perl(Perl モジュール)、MeCab 辞書として ipadic インストールします。+POPFile インストール後に分かち書きに使用するプログラムを追加インストールすることもます。コントロールパネル「プログラムの追加削除」で POPFile の項目を選択、「変更」クリックしてウィザードに従ってください。あるいは、ターメニュからプログラム→POPFile→Uninstall POPFile から追加することもできます。
  
-=== Windows 版 ===+==== クロスプラットフォーム版 ====
  
-ッチ用するのに必要な環境、 +分かち書きに使用したいプログラム(モジュール)と辞書ファイルをインストールします(内蔵ーサ使用する場合は必ありません)。プログラム本体、辞書ファイル、Perl モジュールをインストールする必要があります。インストール方法について([[JP:HowTos:Kakasi| Kakasi を使用する]] / [[JP:HowTos:MeCab| MeCab を使用する]])を参照してください。
-  * POPFile 0.22.4 (Windows 版) +
-  * ActivePerl 5.8.x (ずしも必須というわけではありません。インストールしない場合の方法は後述)+
  
-準備するもの、 +POPFile は Kakasi 2.3.4+Text::Kakasi 1.05/2.04MeCab 0.96+MeCab Perl バインディング 0.96+IPA 辞書 で動作確認れてます。MeCab についてはバージン 0.91 以前ジョンでは動作しませんのでご注意ください。
-  * mecab-perl 0.91 以降([[http://namazu.asablo.jp/blog/2006/05/01/348707| ナマズのブログ]]を参考に、ppm を使ってダウンロード、インストールしてください+
-  * mecab-ipadic (上記ページを参考に、ダウロード&展開し、所定場所にコピーします。環境変数もあわて設定してください)<br>POPFile で使うためには、そのままでは問題があるため、辞書に若干修正を加える必要があります(修正内容はクロスプラットフォーム版を参照)[[http://idisk.mac.com/amatubu/Public/POPFile/mecab-ipadic.zip| 修正済みの辞書]]を入手してインストールすることもできます。 +
-  * MeCab を使うパッチ (上記からダウンロードします)+
  
-POPFile ら MeCab が使用でるようにするため、Perl モジュールを POPFile/lib 以下にコピーする必要があります。具体的には、 +===== 分ち書プログラムの切替方法 =====
-  * //C:\Perl\site\lib\MeCab.pm// → //C:\Program Files\POPFile\lib\MeCab.pm// +
-  * //C:\Perl\site\lib\auto\MeCab// (フォルダ) → //C:\Program Files\POPFile\lib\auto\MeCab//+
  
-ようコピーします(デフォルトインストール場合+Windows 版インストーラを利用する場合は、インストール時分かち書きのプログラムを選択することができます。インストル後に設定を変更たい場合は、ずコントローパネルの「プログラムの追加と削除」で必要なモジュールをインスールしてください。必要なモジュールがインストールされていない場合、設定を変更しても有効になりません
  
-ActivePerl がインストールされていない場合は[[http://www.akaneiro.jp/PPMPackages/800/x86/MeCab.tar.gz| ppm でダウンロドされるファイル]]直接ダウンロード&展開し上記と同様に POPFile/lib 以下フォルダにコピーします。+POPFile UI の詳細設定タブを開きbayes_nihongo_parser パラメタの値変更(kakasimecab、internal いずれか)、**POPFile を再起動**させます。
  
-Windows 環境でのインストラは現在準備中です。+  * kakasi : Kakasi が使用されます。 
 +  * mecab : MeCab が使用されます。 
 +  * internal : 内蔵パサ(文字種による分割)が使用されます。
  
-=== クロスプラフォーム版 ===+Kakasi や MeCab が正常にイントールされていない場合は、MeCab → Kakasi → 内蔵パーサの順に使用するログムが自動的に変更されます(すなわち、MeCab も Kakasi もインストールされていない場合は内蔵パーサが使用されることになります)。現在どのプログラが使用されているかを確認するには、POPFile UI の詳細設定タブを開き、bayes_nihongo_parser の値を確認してください。
  
-MeCab と mecab-perl バージョン 0.91 以降インストールします。インストール方法などについて[[http://mecab.sourceforge.jp/| MeCab ホーページ]]を参照しくだ辞書ファイルは、MeCab 一緒公開されている ipadic インストールします。+**注意:** 
 + 分かち書きプログラム変更することにより、POPFile の分類精度が一時的に低下する可能性があります。これ、プログラによっ分割れる位置が異なることにより、学習や分類に使用される文字列が変わってしまうことが原因ですしかしながら、この影響大きなものではなくそのまま使用し続けることによっ分類精度実現することが可能です。
  
-==== パッチ適用後使用方法 ====+===== 分かち書きプログラム比較 =====
  
-パッチを適用しただけでは、分ち書きのプログラムはデフォルトの Kakasi を使用するようになっています。POPFile UI の詳細設定タブを開き、bayes_japanese_parser パラメータの値を mecab に変更し、POPFile を再起動することによって、MeCab を使用するようになります(もし MeCab のインストールに失敗していた場合は引き続き Kakasi が使われます。正常に動作しているかどうか確認するには、もう一度詳細設定タブを開いて、bayes_japanese_parser パラメータの値が mecab になっているかどうかを調べてみてください+==== Kakasi(漢字→な(ローマ字)変換プログラム) ====
  
-bayes_japanese_parser パメータ値を simple に変更ることよりKakasi も MeCab も使わず、単純に文字種(ひらがなカタカナ、漢字、英数字など)によって分割す機能を使うことできす。クロスプラットフォーム版を使っている場合どでKakasi も MeCab も使用したくない場合などに便利かもしれません。正確な分かち書きではないため、若干精度が落ち可能性がありますが、しばらくテストした感じでは、それほど影響はなようです。+  * POPFile 0.22.5 までのバージョンで使われていたプログムです。 
 +  * MeCab に比べ辞書ファイルサイズが小さくてみます(MeCab 約 40MB 対して約 2MB)が分かち書きの精度は(ひらがなカタカナで構成され単語の情報ていな、などために)MeCab に比べと低いです。
  
-参照: +==== MeCab(Yet Another Part-of-Speech and Morphological Analyzer) ==== 
-  *[[http://sourceforge.jp/forum/forum.php?thread_id=11521&forum_id=3073| POPFile 全般 - POPFile 0.22.4 日本語パッチのテスト公開]]+ 
 +  * メールの処理速度が Kakasi に比べて向上します(環境によっては Kakasi とあまり変わらないこともあります)。 
 +  * 分かち書き精度が Kakasi に比べて向上します(POPFile の分類精度については必ずしも向上するとは限りません)。 
 +  * 辞書ファイルのサイズが大きくなります(Kakasi 約 2MB に対して約 40MB)。 
 + 
 +==== 内蔵パーサ(文字種による分割) ==== 
 + 
 +  * メールの処理速度が Kakasi や MeCab に比べて向上します。 
 +  * 外部モジュールが不要です(クロスプラットフォーム版の導入時などに便利です)。 
 +  * 分かち書き精度が Kakasi や MeCab に比べて低下します(POPFile の分類精度については必ずしも低下する訳ではありません)。 
 + 
 +===== POPFile の分類精度比較について ===== 
 + 
 +2 万通あまりのメールを使用して、Kakasi、MeCab、内蔵パーサ(文字種による分割)を使った場合の [[http://amatubu.skr.jp/?POPFile/Accuracy|分類精度を比較したデータ]] があります。どのプログラム(パーサ)を使用した場合でも分類精度にはほとんど違いがないという結果が出ています。
  
 [[:JP:FAQ | FAQ 初心者・初学者向けのQ&A集]] [[:JP:FAQ | FAQ 初心者・初学者向けのQ&A集]]
 
jp/faq/mecab.txt · Last modified: 2008/02/08 19:49 by 127.0.0.1
Old revisions

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License