Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
jp:faq:mecab [2007/01/24 09:44] amatubujp:faq:mecab [2008/02/08 19:49] (current) – external edit 127.0.0.1
Line 1: Line 1:
 ====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ====== ====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ======
  
-日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile は、Kakasi を使ってこれを実現しています。+日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile は、標準では [[http://kakasi.namazu.org|Kakasi]] を使ってこれを実現しています。
  
-現在のバージョンの POPFile では分かち書きに使用するプログラムを変更することはできません、MeCab を使うためのパッチが現在テスト中です。POPFile の次のメジャーバージョンアップ(0.23 を予定)に含められばと思っていす。テストにご協力いだける方を募集中です動作状況ついては、[[http://sourceforge.jp/forum/forum.php?thread_id=11521&forum_id=3073POPFile フォーラム]]へご報告ください+POPFile 1.0.0 より、分かち書きに使用するプログラムを変更する機能搭載されまた。標準の Kakasi 以外に、[[http://mecab.sourceforge.net|MeCab]] と内蔵パーサ(文字種(漢字、ひらがな、カタカナなど)による単純な分割)から選択することができます
  
-===== 分かち書きに MeCab を使う =====+MeCab は Kakasi に比べ辞書ファイルが大きくなりますが(IPA 辞書 使用時で約 40MB。Kakasi は約 2MB)、分かち書きの精度が高く、環境もよりますが Kakasi よりも高速に動作します。
  
-POPFile にッチを当てるこにより、分かち書きに使用するプログラムとして Kakasi 代わりに MeCab を使うことがきます。MeCab を使うことよるメリットは、 +内蔵ーサは Kakasi や MeCab いった外部プログラム(モジュール)が不要なため、クロスプラットフォーム版導入時など便利です。しかし、辞書を使用せず単純に文字種類だけを頼りに分かち書きを行うため、分かち書きの精度は高くありません動作速度ついては辞書を使用しないため非常高速
-  * メール処理高速化 +
-  * 分かち書き精度の向上 +
-などがありま、 +
-  * 辞書ファイルのサイズが大きい +
-というデメリットがあります(ハードディスクの容量が大きくってる現在ではほとんど問題ならないしょうが)+
  
-==== パッチをインストールする ====+===== 分かち書きプログラムのインストール =====
  
-パッチは以下で入手することができます。クロスプラットフォーム版を使用している場合は zip ファイルを展開し、POPFile/Classifier フォルダの Bayes.pm と MailParse.pm を入れ替えます。Windows 版を使用している場合でも同じですが、専用のインストーラも用意されています。+==== Windows 版 ====
  
-パッチには、分かち書きに MeCab を使う以外に、単純に文字種によって分割する機能や、ほかのバグ修正、若干のパフォーマンス向上含まれています。パッチ適用する前には、必ず POPFile のデータおよびプログラムを[JP:HowTos:Backup | バックアップ]してください。+POPFile 1.0.0 以降の Windows 版のインストーラには、分かち書きに使用するプログラムを選択する機能が搭載されています。インストーラの言語指定で「Nihongo」選択するプログラムの選択画面が現れますので、使用したいもの選択してください。初期設定では、POPFile 0.22.5 以前と同様に Kakasi がインストールされます。どれを選ぶべきかわからない場合は、Kakasi を選択するとよいでしょう
  
-パッチ入手先: +Kakasi あるいは MeCab を選択した場合、それぞれプログラムモジュール)と辞書が自動的にインストールされます。Kakasi と辞書はインストーラに内蔵されていますが、MeCab は内蔵されていないため、インターネットから自動的にダウンロードされ、インストールされます。
-  *[[http://sourceforge.jp/tracker/index.php?func=detail&aid=8561&group_id=759&atid=2945| POPFile 0.22.4 日本語パッチスト版)]]+
  
-==== MeCab をインストールる ====+インストール時に選択したプログラムが使用されように POPFile の設定が自動的に変更されます。
  
-パッチは MeCab 0.91 以降のみ動作します(0.91 および 0.92 にて動作確認)MeCab と mecab-perl(Perl モジュール)、MeCab 辞書として ipadic インストールします。+POPFile インストール後に分かち書きに使用するプログラムを追加インストールすることもます。コントロールパネル「プログラムの追加削除」で POPFile の項目を選択、「変更」クリックしてウィザードに従ってください。あるいは、ターメニュからプログラム→POPFile→Uninstall POPFile から追加することもできます。
  
-=== Windows 版 ===+==== クロスプラットフォーム版 ====
  
-ッチ用するのに必要な環境、 +分かち書きに使用したいプログラム(モジュール)と辞書ファイルをインストールします(内蔵ーサ使用する場合は必ありません)。プログラム本体、辞書ファイル、Perl モジュールをインストールする必要があります。インストール方法について([[JP:HowTos:Kakasi| Kakasi を使用する]] / [[JP:HowTos:MeCab| MeCab を使用する]])を参照してください。
-  * POPFile 0.22.4 (Windows 版) +
-  * ActivePerl 5.8.x (ずしも必須というわけではありません。インストールしない場合の方法は後述)+
  
-準備するもの、 +POPFile は Kakasi 2.3.4+Text::Kakasi 1.05/2.04MeCab 0.96+MeCab Perl バインディング 0.96+IPA 辞書 で動作確認れてます。MeCab についてはバージン 0.91 以前ジョンでは動作しませんのでご注意ください。
-  * mecab-perl 0.91 以降([[http://namazu.asablo.jp/blog/2006/05/01/348707| ナマズのブログ]]を参考に、ppm を使ってダウンロード、インストールしてください+
-  * mecab-ipadic (上記ページを参考に、ダウロード&展開し、所定場所にコピーします。環境変数もあわて設定してください)<br>POPFile で使うためには、そのままでは問題があるため、辞書に若干修正を加える必要があります(修正内容はクロスプラットフォーム版を参照)[[http://idisk.mac.com/amatubu/Public/POPFile/mecab-ipadic.zip| 修正済みの辞書]]を入手してインストールすることもできます。 +
-  * MeCab を使うパッチ (上記からダウンロードします)+
  
-POPFile ら MeCab が使用でるようにするため、Perl モジュールを POPFile/lib 以下にコピーする必要があります。具体的には、 +===== 分ち書プログラムの切替方法 =====
-  * //C:\Perl\site\lib\MeCab.pm// → //C:\Program Files\POPFile\lib\MeCab.pm// +
-  * //C:\Perl\site\lib\auto\MeCab// (フォルダ) → //C:\Program Files\POPFile\lib\auto\MeCab//+
  
-ようコピーします(デフォルトインストール場合+Windows 版インストーラを利用する場合は、インストール時分かち書きのプログラムを選択することができます。インストル後に設定を変更たい場合は、ずコントローパネルの「プログラムの追加と削除」で必要なモジュールをインスールしてください。必要なモジュールがインストールされていない場合、設定を変更しても有効になりません
  
-ActivePerl がインストールされていない場合は[[http://www.akaneiro.jp/PPMPackages/800/x86/MeCab.tar.gz| ppm でダウンロドされるファイル]]直接ダウンロード&展開し上記と同様に POPFile/lib 以下フォルダにコピーします。+POPFile UI の詳細設定タブを開きbayes_nihongo_parser パラメタの値変更(kakasimecab、internal いずれか)、**POPFile を再起動**させます。
  
-Windows 環境では、下記のインストーラを使うの最も楽でしょう+  * kakasi : Kakasi が使用されます。 
 +  * mecab : MeCab 使用されます。 
 +  * internal : 内蔵パーサ(文字種による分割)が使用されます
  
-MeCab 0.91 + 辞書 + パッチ インストーラ: +Kakasi や MeCab が正常にインストールされていない場合は、MeCab → Kakasi → 内蔵パーサの順に使するプログラムが自動的に変更されます(すなわち、MeCab も Kakasi もインストールされていない場合は内蔵パーサが使用されることになります)。現在どのプログムが使用されているか確認するには、POPFile UI の詳細設定タブを開き、bayes_nihongo_parser の値を確認してください。
-  *[[http://idisk.mac.com/amatubu/Public/POPFile/popfile_0224-win_jpn_mecab.zip| Windows 用インストーラ(MeCab 0.91 含む)]]+
  
-=== クプラットフォー版 ===+**注意:** 
 + 分かち書きのプグラムを変更することにより、POPFile の分類精度が一時的に低下する可能性があります。これは、ログラムによって分割される位置が異なることにより、学習や分類に使用される文字列が変わってしまうことが原因です。しかしながら、この影響は大きなものではなく、そのまま使用し続けることによって高い分類精度を実現することが可能です。
  
-MeCab と mecab-perl のバージョン 0.91 以降をインストールします。インストール方法などについては[[http://mecab.sourceforge.jp/| MeCab ホームページ]]を参照してください。辞ファイルは、MeCab と一緒に公開されている ipadic をインストールします。+===== 分かちきプログラムの比較 =====
  
-ipadic は、そのままインストールすると半角英数や半角記号が分割されてしまい、HTML の分析どに支障が生じるため、辞書の設定ファイル(char.def)において、文種の定義が行われている部分(CODE(UCS2TO CATEGORY MAPPING のところを修正します。+==== Kakasi(漢→か(ローマ字)変換プログラム) ====
  
-<code># ASCII +  * POPFile 0.22.5 までのバージョンで使われていたプログラムです。 
-0x0021..0x002F SYMBOL +  * MeCab に比べ辞書ファイルのサイズが小さくてすみます(MeCab 約 40MB に対して約 2MB)が、分かち書きの精度は(ひらがなやカタカナで構成される単語の情報が含まれていない、などのために)MeCab に比べると低いです。
-0x0030..0x0039 NUMERIC +
-0x003A..0x0040 SYMBOL +
-0x0041..0x005A ALPHA +
-0x005B..0x0060 SYMBOL +
-0x0061..0x007A ALPHA +
-0x007B..0x007E SYMBOL</code>+
  
-カテゴリ一番右端の SYMBOL や NUMERIC と書かれたところ)をすべて「ALPHA」に統一してしまうことにより、分割されてしまうことを防ぐことができます。クロスプラットフォーム版でも、[[http://idisk.mac.com/amatubu/Public/POPFile/mecab-ipadic.zip| 修正済みの辞書]] を利用することができます。+==== MeCabYet Another Part-of-Speech and Morphological Analyzer) ====
  
-==== パッチ適用後使用方法 ====+  * メール処理速度が Kakasi に比べて向上します(環境によっては Kakasi とあまり変わらないこともあります)。 
 +  * 分かち書き精度が Kakasi に比べて向上します(POPFile の分類精度については必ずしも向上するとは限りません)。 
 +  * 辞書ファイルのサイズが大きくなります(Kakasi 約 2MB に対して約 40MB)。
  
-ッチを適用しただけでは、分かち書きのプログラムはデフォルトの Kakasi を使用するようになっています。POPFile UI の詳細設定タブを開き、bayes_japanese_parser パラメタの値を mecab に変更し、POPFile を再起動することによって、MeCab を使用すようになります(もし MeCab のインストールに失敗していた場合は引き続き Kakasi が使われます。正常に動作しているかどうか確認するには、もう一度詳細設定タブを開いて、bayes_japanese_parser パラメータの値が mecab になっているかどうかを調べてみてください+==== 内蔵パーサ(文字種による分割) ====
  
-bayes_japanese_parser パラメー値を simple に変更することにより、Kakasi も MeCab も使わず、単純文字種(ひらがな、カタカナ、漢字、英数字など)によっ分割る機能を使うことができまクロスプラットフォーム版を使っている場合などで、Kakasi も MeCab も使用したくない場合などに便利かもしれません正確な分かち書きではないため、若干精度が落ちる可能性がありますが、ばらくテストした感じでは、それほど影響はないようです+  * メー処理速度が Kakasi や MeCab に比べ向上しま。 
 +  * 外部モジュール不要ですクロスプラットフォーム版の導入時などに便利です) 
 +  * 分かち書き精度が Kakasi や MeCab に比べて低下します(POPFile の分類精度については必ずも低下する訳ではありません)
  
-参照: +===== POPFile の分類精度比較について ===== 
-  *[[http://sourceforge.jp/forum/forum.php?thread_id=11521&forum_id=3073| POPFile 全般 - POPFile 0.22.4 日本語パッチのテスト公開]]+ 
 +2 万通あまりのメールを使用して、Kakasi、MeCab、内蔵パーサ(文字種による分割)を使った場合の [[http://amatubu.skr.jp/?POPFile/Accuracy|分類精度を比較したデータ]] があります。どのプログラム(パーサ)を使用した場合でも分類精度にはほとんど違いがないという結果が出ています。
  
 [[:JP:FAQ | FAQ 初心者・初学者向けのQ&A集]] [[:JP:FAQ | FAQ 初心者・初学者向けのQ&A集]]
 
jp/faq/mecab.1169631862.txt.gz · Last modified: 2008/02/08 19:49 (external edit)
Old revisions

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License