insert.pl ユーティリティ・スクリプト

insert.pl スクリプトは、サンプルのメールを特定のバケツに登録することによってコーパスを鍛えるためのものです。これらのサンプルのメールは、内容を分析され、内部的にあなたが指定したバケツに 再分類されます

サンプルメールの数について

このスクリプトを使ってメールサンプルで POPFile を鍛えるときには、サンプルメールの数に注意してください。この方法で POPFile を鍛えるはおすすめできません。このユーティリティはテストのために作成されたものです。もしこれを使って POPFile を鍛えようとするのであれば、数千のメールを登録することは奨励しません。もしそうした場合には、分類精度の向上がほとんどない巨大なコーパスを抱えることになります。このユーティリティを使う場合最も良い方法は、最大でもバケツごとに 100 通程度の少ない特徴的なサンプルを使うようにすることです。POPFile は短期間で学習しますから、このユーティリティを使う必要はありません。また、推奨される TOE(間違ったときにだけ鍛える) という方法をとった場合よりも精度が低くなるでしょう。TOE をシミュレートすることができる TrainTest.py を見てみるのもよいでしょう。

使い方

使用する前には、POPFile を終了させてください。このスクリプトを使う前に、POPFile を終了させてください。insert.pl はコーパスに単語を追加するという変更を行います。このスクリプトはPOPFile と同時に動かすべきではありません。それは、コーパスのデータベースが破損するのを避けるためです。

このスクリプトは、POPFile をインストールしたディレクトリで実行しなければいけません。Windows ユーザの場合は、DOS 窓を開いて POPFile をインストールしたディレクトリ(通常は c:\program files\popfile\ ですが、あなたのシステムでは違う場所かも知れません)に移動します。

   cd "\program files\popfile\"

POPFile をインストールしたディレクトリに移動したら、以下のようにしてスクリプトを動かします。

ディレクトリ内のメッセージを登録します

   perl insert.pl バケツ名 \メッセージへのパス\*.*

1つのメッセージを登録します

   perl insert.pl バケツ名 メッセージのファイル名

メールのサンプルを得るための便利な方法(Tips)

Outlook/Outlook Express を使用している場合

  1. ハードディスク内に一時フォルダを作成し、poptemp という名前にします。
  2. そのフォルダを開きます。
  3. メールクライアントを開いて、先ほど作った poptemp フォルダが見えるようにウィンドウの大きさを変えます。
  4. メールクライアントでサンプルとして登録したいメールメッセージを選びます。
  5. 選んだメッセージを poptemp フォルダにドラッグ&ドロップします。

メッセージは poptemp フォルダに .eml というファイルとして保存されます。これを以下のようにして insert.pl で登録することができます:

   perl insert.pl バケツ名 \poptemp\*.eml

Eudora (または、MBOX や MBX スタイルのメールクライアント) の場合

  1. insert.pl は、Eudora などのメールクライアントが作成した mbx ファイルを直接扱うことができます。
  2. メールクライアントのフォルダにサンプルに含めたいメッセージだけがはいっていることを確認してください。
  3. Eudora で使われているフォルダ名からファイル名がわかることに注意してください。例えば、Eudora で Newsletters という名前のフォルダがあった場合、newsletters.mbx というファイルに保存されています。
  4. 以下のようにして、insert.pl で mbx ファイルを登録します。
   perl insert.pl バケツ名 \Eudora へのパス\newsletters.mbx

原文

ユーティリティ・スクリプト

 
jp/utilityscripts/insert.txt · Last modified: 2008/02/08 19:49 (external edit)

Should you find anything in the documentation that is incomplete, unclear, outdated or just plain wrong, please let us know and leave a note in the Documentation Forum.

Recent changes RSS feed Donate Driven by DokuWiki
The content of this wiki is protected by the GNU Fee Documentation License