全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法の履歴(No.4)

全文検索システム『ひまわり』

１．はじめに†

『日本語話し言葉コーパス』(CSJ)に含まれる形態論情報を『ひまわり』で検索する方法について説明します。
今回は，人手形態素解析を行った 396 講演を検索の対象とします。
Windows環境を想定して，説明します。なお，本資料の内容をお試しいただく場合は，自己責任でお願いいたします。

↑

２．準備†

CSJ の「修正版 XML 文書」DVD をご用意ください。CSJ の入手方法については，『日本語話し言葉コーパス』のホームーページをご覧ください。なお，『日本語話し言葉コーパス』サンプルデータを配布しておりますので，CSJ をまだお持ちでない方はお試しください。
『ひまわり』ver.1.3 をインストールしてください。
CSJ→ひまわり変換パッケージ&ref(): File not found: "c2h.zip" at page "全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法";をダウンロードしてください。
- Windows をお使いの方は，ファイルを右クリックし，[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。
- なお，本ページでは，GPL ライセンスに基づいて，このパッケージを配布しています。

↑

３．変換手順†

c2h.zip を解凍してください。解凍すると，CSJ2Himawari フォルダが現れるはずです。
解凍された CSJ2Himawari フォルダを『ひまわり』がインストールされているフォルダ（以後，『ひまわり』フォルダと表記）の中に移動してください。
「修正版 XML 文書」DVD の XML フォルダを CSJ2Himawari フォルダの中にコピーしてください。
変換の実行
- CSJ2Himawari フォルダに含まれる xml2him.bat をダブルクリックしてください。CSJ 形式の XML ファイルを『ひまわり』形式の XML ファイルへの変換処理が開始します。この処理には，１時間程度(CPU: PentiumIII 900MHz, Memory: 512MB, WindowsXP の場合)かかります。
- 変換が終了すると，コマンドプロンプトのウィンドウ（黒い画面のウィンドウ）に「変換が終了しました。」と表示されます。
- 変換が終了したら，『ひまわり』フォルダの中の Corpora/CSJ/Manual フォルダに， corpus.xml が作成されていることを確認してください。約190MBです。
- さらに，『ひまわり』フォルダに，config_csj_manual.xml があるか確認してください。このファイルは，xmh2him.bat を実行したときに，コピーされます。
- コマンドプロンプトのウィンドウで，何か，キーを押すと，『ひまわり』が起動しますので，４章の「索引付け」に進んでください。

↑

４．索引付け†

　次に，作成した corpus.xml に対して，「索引付け」を行います。「索引付け」は，高速に全文検索するために必要な処理です。

　索引付けの手順は，次のとおりです。

『ひまわり』が起動していることを確認してください。
[ファイル]→[新規] で，『ひまわり』フォルダ中にある config_csj_manual.xml を読み込んでください。CSJ2Himawari フォルダの中の config_csj_manual.xml ではないことに注意してください。
[ツール]→[インデックス生成]を実行してください。この処理には，2～3時間程度(CPU: PentiumIII 900MHz, Memory: 512MB, WindowsXP の場合)かかります。
「インデックス生成が終了しました。」と表示されれば，索引付けは終了です。
なお，なんらかの理由で，インデックス生成を再度行うときは，『ひまわり』フォルダの中の Corpos/CSJ/Manual フォルダに含まれる索引ファイル(拡張子が，.cix, .eix, .aix のファイル)をすべて削除してください。

　以上で，検索用データ作成は終了です。CSJ2Himawari フォルダは削除してもかまいません。

↑

５．使い方†

　ここでは，『日本語話し言葉コーパス』サンプルデータに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については，利用者マニュアルをご覧ください。また，検索結果のデータの見方については，次のマニュアルを参照してください。なお，閲覧には，Adobe 社の Adobe Reader が必要です。Adobe 社の Web ページで無償配布しています

↑

5.1『日本語話し言葉コーパス』サンプルデータを検索対象にするには†

　インストールしたデータを検索対象とするには，『ひまわり』を起動し，[ファイル]→[新規]で config_csj_manual.xml を読み込んでください。

↑

5.2 検索対象の詳細†

　次の項目を対象として，検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

全文:
形態論情報を考慮せずに，全文検索します。なお，検索結果として表示される品詞などの短単位に関する情報は，検索文字列の先頭の文字列を内部に含む短単位のものです。
短単位(要素単位):
- 短単位のレベルで検索します。
- 例えば，上記の「全文」を選択し，「国語」を検索すると，「中国/語」のように，複数の単位にまたがる単位が検索されますが(/ は，短単位の切れ目を表す)，「短単位(要素単位)」では，短単位内に限定して，文字列の照合を行います。したがって，「中国/語」のような例を排除して，検索することができます。
品詞(属性):
品詞をキーとして検索します。文字列の照合には，正規表現を使います。
代表形(属性):
代表形をキーとして検索します。文字列の照合には，正規表現を使います。
節境界(属性):
節境界情報をキーとして検索します。文字列の照合には，正規表現を使います。

↑

5.3 転記テキストの閲覧†

　検索結果をダブルクリックすると，当該の検索文字列を含んだ転記テキストを閲覧することができます。

/ : 短単位の区切り
| : 長単位の区切り
$ : 節境界
検索文字列は，赤色で表示されます。
個々の短単位にマウスカーソルを合わせると，下の図のように短単位の各種属性が表示されます。
長単位の区切り(|)にマウスカーソルを合わせると，長単位の各種属性が表示されます。
節境界($)にマウスカーソルを合わせると，節境界の情報が表示されます。

全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法 の履歴(No.4)