[[全文検索システム『ひまわり』]] #br &color(red){&size(20){現在,本コンテンツは,保守されていません。};}; #br *1.はじめに [#e1f51f05] -[[『分類語彙表増補改訂版』(研究用データ)>http://www.ninjal.ac.jp/archives/goihyo/]]を『ひまわり』で利用する方法について説明します。 -本資料の内容は,次の環境でテストしています。本資料の内容をお試しいただく場合は,自己責任でお願いいたします。 --『ひまわり』(ver.1.2β03) --環境1 ---OS: WindowsXP(SP2) ---Memory: 512MB ---Perl: ActivePerl ver.5.8.6.811 --環境2 ---OS: Debian GNU/Linux ver.3.0 ---Memory: 1GB ---Perl: ActivePerl ver.5.8.6.811 -実行例は,次のとおりです。画像をクリックすると大きくなります。 #br &ref(全文検索システム『ひまわり』/実行例/snapshot_bunrui.png,,40%,『分類語彙表増補改訂版』への適用); *2.準備 [#pd40fdaf] -『分類語彙表増補改訂版』(研究用データ)を入手してください。 --入手方法は,[[『分類語彙表増補改訂版』(研究用データ)>http://www.ninjal.ac.jp/archives/goihyo/]]をご覧ください。 --[[『分類語彙表増補改訂版』(書籍版)>http://www.ninjal.ac.jp/archives/goihyo/syokai/]]に付属の CD-ROM のデータには&color(red){対応していません};のでご注意ください。 -『分類語彙表』→『ひまわり』変換パッケージ(&ref(bun2him.lzh);)をダウンロードしておいてください。なお,本ページでは,[[GPL:http://www.gnu.org/licenses/gpl.ja.html]] ライセンスに基づいて,このパッケージを配布しています。 -Perl (ver.5.8.6 以上) をお手持ちのPCにインストールしてください。 --Perl は,変換に必要なプログラミング言語です。 --[[ActiveState:http://www.activestate.com/]] で無償で配布しています。 ---[[Windows 版ダウンロード:http://downloads.activestate.com/ActivePerl/Windows/5.8/ActivePerl-5.8.6.811-MSWin32-x86-122208.msi]] ---[[Linux 版ダウンロード:http://downloads.activestate.com/ActivePerl/Linux/5.8/ActivePerl-5.8.6.811-i686-linux.tar.gz]] --詳しくは,ActiveState の [[ActivePerl のページ:http://www.activestate.com/Products/ActivePerl/]] や [[Instalation Guide:http://aspn.activestate.com/ASPN/docs/ActivePerl/install.html]] をご覧ください。 -[[『ひまわり』 ver.1.3 >全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.3]]をインストールしてください。 //--ver.1.2β02 以前のバージョンでは,一部の機能に不具合が発生します。 //--また,『太陽コーパス』に同梱されている『ひまわり』は ver.1.1 ですのでご注意ください。 *3.変換手順 [#f5879c60] **3.1 パッケージの解凍 [#oc6cf374] -「準備」のところで示した &ref(bun2him.lzh); を解凍してください。このファイルは,LZH 形式で圧縮されていますので,[[Lhasa32:http://www.vector.co.jp/download/file/win95/util/ff336899.html]] などをお使いください。 -解凍すると,Bun2Himawari フォルダが作成されます。 -パッケージの内容 --README.txt --bun2himawari.pl --b2h.bat --config_bunrui.xml --Corpora フォルダ **3.2 分類語彙表のデータのインストール [#bf9ab50e] -『分類語彙表増補改訂版』(研究用データ)に同梱されている bunruidb.txt をご用意ください。 -bunruidb.txt を上記 3.1 で作成された Bun2Himawari フォルダにコピーしてください。 **3.3 変換の実行 [#zed65028] +次のいずれかの処理を行ってください。 ++(Windows をお使いの方のみ): Bun2Himawari フォルダにある b2h.bat をダブルクリックしてください。なお,Windows の設定によっては,ファイル名のうち,拡張子の .bat が表示されない可能性があります。このアイコン&ref(himawari_bat_icon.png,,50%);を目印にしてください。 ++(Windows, Linux 共通): Bun2Himawari フォルダにおいて,次のコマンドを実行してください。 perl bun2himawari.pl bunruidb.txt corpus.xml +corpus.xml ファイルが作成されたかどうか確認してください。ファイルサイズは,約9MBです。 +corpos.xml を Corpora 中の Bunrui フォルダに移動してください。 +Corpora フォルダと config_bunrui.xml を『ひまわり』がインストールしてある場所にコピーしてください。 **3.4 索引付け [#qbd0be6c] 次に,作成した corpus.xml に対して,「索引付け」を行います。「索引付け」は,高速に全文検索するために必要な処理です。 索引付けの手順は,次のとおりです。 +『ひまわり』を起動してください。 + [ファイル]→[新規] で,設定ファイルの config_bunrui.xml を読み込んでください。 + [ツール]→[インデックス生成]を実行してください。この処理には,5〜10分程度かかります。 +「インデックス生成が終了しました。」と表示されれば,索引付けは終了です。 &br;なお,なんらかの理由で,インデックス生成を再度行うときは,Bunrui フォルダ中の索引ファイル(拡張子が,.cix, .eix, .aix のファイル)をすべて削除してください。 以上で,検索用データ作成は終了です。 *4.使い方 [#j988305e] -『ひまわり』を起動し,[ファイル]→[新規] で,設定ファイルの config_bunrui.xml を読み込んでください。 -[[『分類語彙表』サンプルの2節「使い方」>全文検索システム『ひまわり』/『分類語彙表』サンプル#how_to_use]] をご覧ください。設定ファイル名が異なるだけで使い方は同じです。 *5.その他 [#c36f8fb6] -『分類語彙表増補改訂版』(研究用データ)を UFT-16 に変換している関係上,マイナス記号の入力が困難な場合があります。例えば,「−か日」を検索する場合のように,マイナスが検索文字列に含まれる場合は,この「−」をコピーしてお使いください。なお,UTF-16 だと文字コードは,0x2212 となります。