This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revisionLast revisionBoth sides next revision | ||
jp:faq:mecab [2007/04/15 09:27] – amatubu | jp:faq:mecab [2007/12/08 11:39] – amatubu | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ====== | ====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ====== | ||
- | 日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile | + | 日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile は、標準では [[http:// |
- | 現在のバージョンの | + | POPFile |
- | ===== 分かち書きに | + | MeCab は Kakasi に比べ辞書ファイルが大きくなりますが(IPA 辞書 使用時で約 40MB。Kakasi は約 2MB)、分かち書きの精度が高く、環境にもよりますが Kakasi よりも高速に動作します。 |
- | POPFile にパッチを当てることにより、分かち書きに使用するプログラムとして Kakasi | + | 内蔵パーサは Kakasi や MeCab といった外部プログラム(モジュール)が不要なため、クロスプラットフォーム版の導入時などに便利です。しかし、辞書を使用せずに単純に文字の種類だけを頼りに分かち書きを行うため、分かち書きの精度は高くありません。動作速度については辞書を使用しないため非常に高速です。 |
- | * メール処理の高速化 | + | |
- | * 分かち書き精度の向上 | + | |
- | などがあります。逆に、 | + | |
- | * 辞書ファイルのサイズが大きい | + | |
- | というデメリットがあります(ハードディスクの容量が大きくなっている現在ではほとんど問題にならないでしょうが)。 | + | |
- | ==== パッチをインストールする | + | ===== 分かち書きプログラムのインストール |
- | パッチは以下で入手することができます。クロスプラットフォーム版を使用している場合は zip ファイルを展開し、POPFile/ | + | ==== Windows 版 ==== |
- | このパッチには、分かち書きに | + | POPFile 1.0.0 以降の Windows 版のインストーラには、分かち書きに使用するプログラムを選択する機能が搭載されています。インストーラの言語指定で「Nihongo」を選択するとプログラムの選択画面が現れますので、使用したいものを選択してください。初期設定では、POPFile 0.22.5 以前と同様に Kakasi がインストールされます。どれを選ぶべきかわからない場合は、Kakasi を選択するとよいでしょう。 |
- | パッチの入手先: | + | Kakasi あるいは MeCab を選択した場合、それぞれのプログラム(モジュール)と辞書が自動的にインストールされます。Kakasi と辞書はインストーラに内蔵されていますが、MeCab は内蔵されていないため、インターネットから自動的にダウンロードされ、インストールされます。 |
- | *[[http:// | + | |
- | ==== MeCab をインストールする ==== | + | インストール時に選択したプログラムが使用されるように POPFile の設定が自動的に変更されます。 |
- | パッチは MeCab 0.91 以降でのみ動作します(0.95 にて動作確認)。MeCab と mecab-perl(Perl モジュール)、MeCab | + | POPFile インストール後に分かち書きに使用するプログラムを追加インストールすることもできます。コントロールパネルの「プログラムの追加と削除」で POPFile の項目を選択し、「変更」をクリックしてウィザードに従ってください。あるいは、スタートメニューからプログラム→POPFile→Uninstall POPFile から追加することもできます。 |
- | === Windows | + | ==== クロスプラットフォーム版 ==== |
- | パッチを適用するのに必要な環境は、 | + | 分かち書きに使用したいプログラム(モジュール)と辞書ファイルをインストールします(内蔵パーサを使用する場合は必要ありません)。プログラム本体、辞書ファイル、Perl モジュールをインストールする必要があります。インストール方法については([[JP: |
- | * POPFile 0.22.4 (Windows 版) | + | |
- | * ActivePerl 5.8.x (必ずしも必須というわけではありません。インストールしない場合の方法は後述) | + | |
- | 準備するものは、 | + | POPFile |
- | * mecab-perl 0.91 以降([[http://namazu.asablo.jp/ | + | |
- | * mecab-ipadic (上記ページを参考に、ダウンロード&展開し、所定の場所にコピーします。環境変数もあわせて設定してください)< | + | |
- | * MeCab を使うパッチ (上記からダウンロードします) | + | |
- | POPFile | + | ===== 分かち書きプログラムの切替方法 ===== |
- | * // | + | |
- | * // | + | |
- | のようにコピーします(デフォルトインストールの場合)。 | + | Windows 版のインストーラを利用する場合は、インストール時に分かち書きのプログラムを選択することができます。インストール後に設定を変更したい場合は、まずコントロールパネルの「プログラムの追加と削除」で必要なモジュールをインストールしてください。必要なモジュールがインストールされていない場合、設定を変更しても有効になりません。 |
- | ActivePerl がインストールされていない場合は、[[http:// | + | POPFile UI の詳細設定タブを開き、bayes_nihongo_parser パラメータの値を変更(kakasi、mecab、internal |
- | Windows 環境でのインストーラは現在準備中です。 | + | * kakasi : Kakasi が使用されます。 |
+ | * mecab : MeCab が使用されます。 | ||
+ | * internal : 内蔵パーサ(文字種による分割)が使用されます。 | ||
- | === クロスプラットフォーム版 === | + | Kakasi や MeCab が正常にインストールされていない場合は、MeCab → Kakasi → 内蔵パーサの順に使用するプログラムが自動的に変更されます(すなわち、MeCab も Kakasi もインストールされていない場合は内蔵パーサが使用されることになります)。現在どのプログラムが使用されているかを確認するには、POPFile UI の詳細設定タブを開き、bayes_nihongo_parser の値を確認してください。 |
- | MeCab と mecab-perl | + | **注意: |
+ | | ||
- | ==== パッチ適用後の使用方法 | + | ===== 分かち書きプログラムの比較 ===== |
- | パッチを適用しただけでは、分かち書きのプログラムはデフォルトの Kakasi を使用するようになっています。POPFile UI の詳細設定タブを開き、bayes_japanese_parser パラメータの値を mecab に変更し、POPFile を再起動することによって、MeCab を使用するようになります(もし MeCab のインストールに失敗していた場合は引き続き Kakasi が使われます。正常に動作しているかどうか確認するには、もう一度詳細設定タブを開いて、bayes_japanese_parser パラメータの値が mecab になっているかどうかを調べてみてください)。 | + | ==== Kakasi(漢字→かな(ローマ字)変換プログラム) |
- | bayes_japanese_parser パラメータの値を simple に変更することにより、Kakasi も MeCab も使わず、単純に文字種(ひらがな、カタカナ、漢字、英数字など)によって分割する機能を使うことができます。クロスプラットフォーム版を使っている場合などで、Kakasi も MeCab も使用したくない場合などに便利かもしれません。正確な分かち書きではないため、若干精度が落ちる可能性がありますが、しばらくテストした感じでは、それほど影響はないようです。 | + | * POPFile 0.22.5 までのバージョンで使われていたプログラムです。 |
+ | * MeCab に比べ辞書ファイルのサイズが小さくてすみます(MeCab 約 40MB に対して約 2MB)が、分かち書きの精度は(ひらがなやカタカナで構成される単語の情報が含まれていない、などのために)MeCab に比べると低いです。 | ||
- | 参照: | + | ==== MeCab(Yet Another Part-of-Speech and Morphological Analyzer) ==== |
- | *[[http://sourceforge.jp/forum/ | + | |
+ | * メールの処理速度が Kakasi に比べて向上します(環境によっては Kakasi とあまり変わらないこともあります)。 | ||
+ | * 分かち書き精度が Kakasi に比べて向上します(POPFile の分類精度については必ずしも向上するとは限りません)。 | ||
+ | * 辞書ファイルのサイズが大きくなります(Kakasi 約 2MB に対して約 40MB)。 | ||
+ | |||
+ | ==== 内蔵パーサ(文字種による分割) ==== | ||
+ | |||
+ | * メールの処理速度が Kakasi や MeCab に比べて向上します。 | ||
+ | * 外部モジュールが不要です(クロスプラットフォーム版の導入時などに便利です)。 | ||
+ | * 分かち書き精度が Kakasi や MeCab に比べて低下します(POPFile の分類精度については必ずしも低下する訳ではありません)。 | ||
+ | |||
+ | ===== POPFile の分類精度比較について ===== | ||
+ | |||
+ | 2 万通あまりのメールを使用して、Kakasi、MeCab、内蔵パーサ(文字種による分割)を使った場合の | ||
[[:JP:FAQ | FAQ 初心者・初学者向けのQ& | [[:JP:FAQ | FAQ 初心者・初学者向けのQ& |
Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.