全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションするの履歴差分(No.21)

追加された行はこの色です。
削除された行はこの色です。
[[全文検索システム『ひまわり』/利用者マニュアル/1_5]]


&size(20){&color(red){本ページは現在構築中です};};


* 6. 言語資料にアノテーションする [#ia084527]

** 6.1 概要 [#t6b39075]
　『ひまわり』には，３種類のアノテーション機能があります。これらの機能を使うと，登録されている言語資料に付加的に情報をアノテーション（注釈付け）することができます。アノテーションしたデータは，元の言語資料にアノテーションされているデータと同様に検索することができます。

- 人手アノテーション ... 検索結果に対して人手でアノテーションします
- 外部アノテーション ... 形態素解析システムなど外部システムを使ったアノテーションです
- データのインポート ... アノテーションデータをファイルからインポートします

　アノテーションした結果は，『ひまわり』内部のデータベースに保存されます。ただし，登録されている言語資料自体（XMLデータ）には変更は加えません。

** 6.2 人手アノテーション [#p0e74d35]
　この機能は，検索した結果に対して，なんらかの情報をアノテーションするために利用します。例えば，必要な用例には○，不要な用例には×をつけるといった利用方法です。

　実際の例として，『ひまわり』に同梱されている『青空文庫サンプル』に対して，人手アノテーションしてみましょう。『青空文庫サンプル』は，[[3.1節>全文検索システム『ひまわり』/利用者マニュアル/1_5/３．検索してみよう#kbc7241f]]を参考にして，設定ファイル config_aozora_sample.xml を読み込んでください。

　次の図のように，検索結果欄の「メモ１」「メモ２」列があります。この列は，他の列と異なり，編集できるようになっています。『青空文庫サンプル』の設定では，「メモ１」列が自由記述の入力，「メモ２」が選択式の入力となっています。

#ref(./example_edit.png,wrap,center)

　「自由記述」の列の場合，その言葉のとおり，自由な記入ができます。ただし，長さは255文字までです。一方，「選択式」の場合，一覧からの選択して入力します。『青空文庫サンプル』の設定では，○×△からの選択です。選択項目の指定は，config_aozora_sample.xml の field_setting 要素を参照してください。

　編集が終わったら，ウィンドウ右下の「保存する」ボタンを押してください。編集内容がデータベースに格納されます。「元に戻す」ボタンを押すと，編集前の状態に戻ります。

#ref(./save_annotation.png,wrap,center)

** 6.3 自動アノテーション [#q6041ade]
　自動アノテーションは，『ひまわり』とは別の外部プログラムを使って，『ひまわり』に登録されている言語資料にアノテーションします。『青空文庫サンプル』には，形態素解析システム JUMAN と MeCab 用の設定が入っており，言語資料に形態素解析結果をアノテーションすることができます。

　自動アノテーションを実行するには，[ツール]→[アノテーション]→[外部プログラム]から実行するプログラムを選択して下さい。選択したプログラムによるアノテーションが開始され，結果がデータベースに格納されます。

　この機能を使う場合は，次の点に留意して下さい。

- JUMAN もしくは MeCab を事前にインストールしておいて下さい。
- &color(red){すでに自動アノテーションしている場合は，上書きされます。};
- 言語資料が巨大な場合，アノテーションに時間がかかる場合があります。また，ハードディスクに十分な空き容量が必要です。
- 処理の途中でエラーが発生することを考慮し，himawari.exe ではなく，himawari_debug.exe を使用することをお勧めします。himawari_debug.exe と himawari.exe に機能的な違いはありませんが，himawari_debug.exe は処理途中のメッセージを表示します。

　自動アノテーションが完了したら，専用の設定ファイル（DB検索用設定ファイル）を[[3.1節>全文検索システム『ひまわり』/利用者マニュアル/1_5/３．検索してみよう#kbc7241f]]の方法で読み込んでください。５章の手順で『ひまわり』に言語資料をインポートした場合は，末尾が，.db.xml の設定ファイル（例： config_コーパス名.db.xml）がDB検索用設定ファイルです。

　DB検索用設定ファイルを読み込むと，次のように，結果表示欄に形態素解析結果用の列（基本形，読み，品詞）が現れます。形態素解析結果のうち，どの情報を表示するかは，設定ファイルの annotator 要素，fieldsetting 要素などを参照してください。

#ref(./result_db_search.png,wrap,center)

　config_aozora_sample_db.xml の設定では，次のような検索対象（一部）が設定されています。

#ref(./search_target_db.png,wrap,right,around)
- 本文： 全文検索します。検索文字列が形態素の場合，形態素解析結果用の列（基本形，読み，品詞）に情報が表示されます。形態素ではない場合は，空欄になります。
- 基本形： 基本形で検索します。活用語を検索する際に便利です。
- 読み： 読みで検索します。なお，読みは，JUMANの場合，ひらがな，MeCabの場合，カタカナで入力します。
- 出現形： 出現形で検索します。
- メモ１： 「メモ１」列を検索します。文字列のマッチングは，部分一致（SQL の LIKE 検索に準じます）です。例えば，「未」で始まる文字列は「未%」，「未」を含む文字列は「%未%」です。
- メモ２： 「メモ２」列を検索します。この列も部分一致検索となります。

#clear

** 6.4 データインポート [#xbb7ed4a]
　データインポート機能は，アノテーション情報を格納したファイルに基づいて，言語資料にアノテーションする機能です。[ツール]→[アノテーション]→[ファイル]で呼び出します。

　&color(red){本機能は，現在整備中です。};
　
//** 6.5 設定 [#me951a0e]
//　ここでは，アノテーションに関する設定について説明します。
全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションする の履歴差分(No.21)

全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションするの履歴差分(No.21)