[PukiWiki]

全文検索システム『ひまわり』/『分類語彙表』を『ひまわり』で利用する方法 の変更点

Top/全文検索システム『ひまわり』/『分類語彙表』を『ひまわり』で利用する方法

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 全文検索システム『ひまわり』/『分類語彙表』を『ひまわり』で利用する方法 へ行く。
  • 全文検索システム『ひまわり』/『分類語彙表』を『ひまわり』で利用する方法 の差分を削除

[[全文検索システム『ひまわり』]]

#br
&color(red){&size(20){現在,本コンテンツは,保守されていません。};};
#br


*1.はじめに [#e1f51f05]
-[[『分類語彙表増補改訂版』(研究用データ)>http://www.ninjal.ac.jp/archives/goihyo/]]を『ひまわり』で利用する方法について説明します。
-本資料の内容は,次の環境でテストしています。本資料の内容をお試しいただく場合は,自己責任でお願いいたします。
--『ひまわり』(ver.1.2β03)
--環境1
---OS: WindowsXP(SP2)
---Memory: 512MB
---Perl: ActivePerl ver.5.8.6.811
--環境2
---OS: Debian GNU/Linux ver.3.0
---Memory: 1GB
---Perl: ActivePerl ver.5.8.6.811
-実行例は,次のとおりです。画像をクリックすると大きくなります。
#br
&ref(全文検索システム『ひまわり』/実行例/snapshot_bunrui.png,,40%,『分類語彙表増補改訂版』への適用);

*2.準備 [#pd40fdaf]
-『分類語彙表増補改訂版』(研究用データ)を入手してください。
--入手方法は,[[『分類語彙表増補改訂版』(研究用データ)>http://www.ninjal.ac.jp/archives/goihyo/]]をご覧ください。
--[[『分類語彙表増補改訂版』(書籍版)>http://www.ninjal.ac.jp/archives/goihyo/syokai/]]に付属の CD-ROM のデータには&color(red){対応していません};のでご注意ください。
-『分類語彙表』→『ひまわり』変換パッケージ(&ref(bun2him.lzh);)をダウンロードしておいてください。なお,本ページでは,[[GPL:http://www.gnu.org/licenses/gpl.ja.html]] ライセンスに基づいて,このパッケージを配布しています。
-Perl (ver.5.8.6 以上) をお手持ちのPCにインストールしてください。
--Perl は,変換に必要なプログラミング言語です。
--[[ActiveState:http://www.activestate.com/]] で無償で配布しています。
---[[Windows 版ダウンロード:http://downloads.activestate.com/ActivePerl/Windows/5.8/ActivePerl-5.8.6.811-MSWin32-x86-122208.msi]]
---[[Linux 版ダウンロード:http://downloads.activestate.com/ActivePerl/Linux/5.8/ActivePerl-5.8.6.811-i686-linux.tar.gz]]
--詳しくは,ActiveState の [[ActivePerl のページ:http://www.activestate.com/Products/ActivePerl/]] や [[Instalation Guide:http://aspn.activestate.com/ASPN/docs/ActivePerl/install.html]] をご覧ください。
-[[『ひまわり』 ver.1.3 >全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.3]]をインストールしてください。
//--ver.1.2β02 以前のバージョンでは,一部の機能に不具合が発生します。
//--また,『太陽コーパス』に同梱されている『ひまわり』は ver.1.1 ですのでご注意ください。


*3.変換手順 [#f5879c60]
**3.1 パッケージの解凍 [#oc6cf374]
-「準備」のところで示した &ref(bun2him.lzh); を解凍してください。このファイルは,LZH 形式で圧縮されていますので,[[Lhasa32:http://www.vector.co.jp/download/file/win95/util/ff336899.html]] などをお使いください。
-解凍すると,Bun2Himawari フォルダが作成されます。
-パッケージの内容
--README.txt
--bun2himawari.pl
--b2h.bat
--config_bunrui.xml
--Corpora フォルダ 

**3.2 分類語彙表のデータのインストール [#bf9ab50e]
-『分類語彙表増補改訂版』(研究用データ)に同梱されている bunruidb.txt をご用意ください。
-bunruidb.txt を上記 3.1 で作成された Bun2Himawari フォルダにコピーしてください。

**3.3 変換の実行 [#zed65028]
+次のいずれかの処理を行ってください。
++(Windows をお使いの方のみ): Bun2Himawari フォルダにある b2h.bat をダブルクリックしてください。なお,Windows の設定によっては,ファイル名のうち,拡張子の .bat が表示されない可能性があります。このアイコン&ref(himawari_bat_icon.png,,50%);を目印にしてください。
++(Windows, Linux 共通): Bun2Himawari フォルダにおいて,次のコマンドを実行してください。
 perl bun2himawari.pl bunruidb.txt corpus.xml
+corpus.xml ファイルが作成されたかどうか確認してください。ファイルサイズは,約9MBです。
+corpos.xml を Corpora 中の Bunrui フォルダに移動してください。
+Corpora フォルダと config_bunrui.xml を『ひまわり』がインストールしてある場所にコピーしてください。

**3.4 索引付け [#qbd0be6c]
 次に,作成した corpus.xml に対して,「索引付け」を行います。「索引付け」は,高速に全文検索するために必要な処理です。

 索引付けの手順は,次のとおりです。

+『ひまわり』を起動してください。
+ [ファイル]→[新規] で,設定ファイルの config_bunrui.xml を読み込んでください。
+ [ツール]→[インデックス生成]を実行してください。この処理には,5〜10分程度かかります。
+「インデックス生成が終了しました。」と表示されれば,索引付けは終了です。
&br;なお,なんらかの理由で,インデックス生成を再度行うときは,Bunrui フォルダ中の索引ファイル(拡張子が,.cix, .eix, .aix のファイル)をすべて削除してください。

 以上で,検索用データ作成は終了です。

*4.使い方 [#j988305e]
-『ひまわり』を起動し,[ファイル]→[新規] で,設定ファイルの config_bunrui.xml を読み込んでください。
-[[『分類語彙表』サンプルの2節「使い方」>全文検索システム『ひまわり』/『分類語彙表』サンプル#how_to_use]] をご覧ください。設定ファイル名が異なるだけで使い方は同じです。

*5.その他 [#c36f8fb6]
-『分類語彙表増補改訂版』(研究用データ)を UFT-16 に変換している関係上,マイナス記号の入力が困難な場合があります。例えば,「−か日」を検索する場合のように,マイナスが検索文字列に含まれる場合は,この「−」をコピーしてお使いください。なお,UTF-16 だと文字コードは,0x2212 となります。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS