This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
jp:faq:mecab [2007/09/08 13:49] – update for new version amatubu | jp:faq:mecab [2008/02/08 19:49] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ====== | ====== 分かち書きに Kakasi 以外のプログラム(例えば MeCab など)を使用する ====== | ||
- | 日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile | + | 日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります。POPFile は、標準では [[http:// |
- | 現在のバージョンの | + | POPFile |
- | ===== 分かち書きに | + | MeCab は Kakasi に比べ辞書ファイルが大きくなりますが(IPA 辞書 使用時で約 40MB。Kakasi は約 2MB)、分かち書きの精度が高く、環境にもよりますが Kakasi よりも高速に動作します。 |
- | POPFile にパッチを当てることにより、分かち書きに使用するプログラムとして Kakasi | + | 内蔵パーサは Kakasi や MeCab といった外部プログラム(モジュール)が不要なため、クロスプラットフォーム版の導入時などに便利です。しかし、辞書を使用せずに単純に文字の種類だけを頼りに分かち書きを行うため、分かち書きの精度は高くありません。動作速度については辞書を使用しないため非常に高速です。 |
- | * メール処理の高速化(環境によっては Kakasi とあまり変わらないこともあります) | + | |
- | * 分かち書き精度の向上(POPFile の分類精度については必ずしも向上するとは限りません) | + | |
- | などがあります。逆に、 | + | |
- | * 辞書ファイルのサイズが大きい | + | |
- | というデメリットがあります(ハードディスクの容量が大きくなっている現在ではほとんど問題にならないでしょうが)。 | + | |
- | ===== 分かち書きに内蔵パーサ(文字種による分割)を使う | + | ===== 分かち書きプログラムのインストール ===== |
- | POPFile にパッチを当てることにより、分かち書きに使用するプログラムとして内蔵パーサ(文字種による分割)を使うことができます。内蔵パーサを使うことによるメリットは、 | + | ==== Windows |
- | * メール処理の高速化 | + | |
- | * 外部モジュールが不要(クロスプラットフォーム版の導入時などに便利でしょう) | + | |
- | などがあります。逆に、 | + | |
- | * 分かち書き精度の低下(POPFile の分類精度については必ずしも低下する訳ではありません) | + | |
- | というデメリットがあります。 | + | |
- | ===== パッチをインストールする | + | POPFile 1.0.0 以降の Windows 版のインストーラには、分かち書きに使用するプログラムを選択する機能が搭載されています。インストーラの言語指定で「Nihongo」を選択するとプログラムの選択画面が現れますので、使用したいものを選択してください。初期設定では、POPFile 0.22.5 以前と同様に Kakasi がインストールされます。どれを選ぶべきかわからない場合は、Kakasi を選択するとよいでしょう。 |
- | パッチは以下で入手することができます。クロスプラットフォーム版を使用している場合は zip ファイルを展開し、POPFile/ | + | Kakasi あるいは MeCab を選択した場合、それぞれのプログラム(モジュール)と辞書が自動的にインストールされます。Kakasi と辞書はインストーラに内蔵されていますが、MeCab |
- | パッチを適用する前には、必ず POPFile のデータおよびプログラムを[[JP: | + | インストール時に選択したプログラムが使用されるように POPFile の設定が自動的に変更されます。 |
- | パッチの入手先: | + | POPFile インストール後に分かち書きに使用するプログラムを追加インストールすることもできます。コントロールパネルの「プログラムの追加と削除」で |
- | *[[https:// | + | |
- | ===== MeCab をインストールする ===== | + | ==== クロスプラットフォーム版 |
- | パッチは MeCab 0.91 以降でのみ動作します(0.96 を推奨)。MeCab と mecab-perl(Perl モジュール)、MeCab の辞書として ipadic | + | 分かち書きに使用したいプログラム(モジュール)と辞書ファイルをインストールします(内蔵パーサを使用する場合は必要ありません)。プログラム本体、辞書ファイル、Perl モジュールをインストールする必要があります。インストール方法については([[JP: |
- | ==== Windows 版 ==== | + | POPFile は Kakasi 2.3.4+Text:: |
- | パッチを適用するのに必要な環境は、 | + | ===== 分かち書きプログラムの切替方法 |
- | * POPFile 0.22.5 (Windows 版) | + | |
- | * %%ActivePerl%% 5.8.x (必ずしも必須というわけではありません。インストールしない場合の方法は後述) | + | |
- | 準備するものは、 | + | Windows 版のインストーラを利用する場合は、インストール時に分かち書きのプログラムを選択することができます。インストール後に設定を変更したい場合は、まずコントロールパネルの「プログラムの追加と削除」で必要なモジュールをインストールしてください。必要なモジュールがインストールされていない場合、設定を変更しても有効になりません。 |
- | * mecab-perl 0.91 以降([[http:// | + | |
- | * mecab-ipadic (上記ページを参考に、ダウンロード&展開し、所定の場所にコピーします。環境変数もあわせて設定してください) | + | |
- | * MeCab を使うパッチ (上記からダウンロードします) | + | |
- | POPFile | + | POPFile |
- | | + | |
- | | + | |
- | のようにコピーします(デフォルトインストールの場合)。 | + | * kakasi : Kakasi が使用されます。 |
+ | * mecab : MeCab が使用されます。 | ||
+ | * internal : 内蔵パーサ(文字種による分割)が使用されます。 | ||
- | %%ActivePerl%% | + | Kakasi や MeCab が正常にインストールされていない場合は、MeCab |
- | ==== クロスプラットフォーム版 ==== | + | **注意: |
+ | | ||
- | MeCab と mecab-perl のバージョン 0.91 以降をインストールします。インストール方法などについては[[http:// | + | ===== 分かち書きプログラムの比較 ===== |
- | ===== 分かち書きプログラムの切替方法 | + | ==== Kakasi(漢字→かな(ローマ字)変換プログラム) ==== |
+ | |||
+ | * POPFile 0.22.5 までのバージョンで使われていたプログラムです。 | ||
+ | * MeCab に比べ辞書ファイルのサイズが小さくてすみます(MeCab 約 40MB に対して約 2MB)が、分かち書きの精度は(ひらがなやカタカナで構成される単語の情報が含まれていない、などのために)MeCab に比べると低いです。 | ||
+ | |||
+ | ==== MeCab(Yet Another Part-of-Speech and Morphological Analyzer) | ||
+ | |||
+ | * メールの処理速度が Kakasi に比べて向上します(環境によっては Kakasi とあまり変わらないこともあります)。 | ||
+ | * 分かち書き精度が Kakasi に比べて向上します(POPFile の分類精度については必ずしも向上するとは限りません)。 | ||
+ | * 辞書ファイルのサイズが大きくなります(Kakasi 約 2MB に対して約 40MB)。 | ||
- | パッチを適用しただけでは、分かち書きのプログラムはデフォルトの Kakasi を使用するようになっています。POPFile UI の詳細設定タブを開き、bayes_japanese_parser パラメータの値を mecab に変更し、POPFile を再起動することによって、MeCab を使用するようになります(もし MeCab のインストールがうまくいっていない場合は引き続き Kakasi が使われます。正常に動作しているかどうか確認するには、もう一度詳細設定タブを開いて、bayes_japanese_parser パラメータの値が mecab になっているかどうかを調べてみてください)。 | + | ==== 内蔵パーサ(文字種による分割) ==== |
- | bayes_japanese_parser パラメータの値を internal に変更することにより、Kakasi | + | * メールの処理速度が |
+ | * 外部モジュールが不要です(クロスプラットフォーム版の導入時などに便利です)。 | ||
+ | * 分かち書き精度が | ||
===== POPFile の分類精度比較について ===== | ===== POPFile の分類精度比較について ===== | ||
- | 2 万通あまりのメールを使用して、Kakasi、MeCab、内蔵パーサ(文字種による分割)を使った場合の分類精度を比較したデータ | + | 2 万通あまりのメールを使用して、Kakasi、MeCab、内蔵パーサ(文字種による分割)を使った場合の [[http:// |
[[:JP:FAQ | FAQ 初心者・初学者向けのQ& | [[:JP:FAQ | FAQ 初心者・初学者向けのQ& |
Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.