『ひまわり』には,3種類のアノテーション機能があります。これらの機能を使うと,登録されている言語資料に付加的に情報をアノテーション(注釈付け)することができます。アノテーションしたデータは,元の言語資料にアノテーションされているデータと同様に検索することができます。
アノテーションした結果は,『ひまわり』内部のデータベースに保存されます。ただし,登録されている言語資料自体(XMLデータ)には変更は加えません。
この機能は,検索した結果に対して,なんらかの情報をアノテーションするために利用します。例えば,必要な用例には○,不要な用例には×をつけるといった利用方法です。
実際の例として,『ひまわり』に同梱されている『青空文庫サンプル』に対して,人手アノテーションしてみましょう。『青空文庫サンプル』は,3.1節を参考にして,設定ファイル config_aozora_sample.db.xml を読み込んでください。
次の図のように,検索結果欄の「メモ1」「メモ2」列があります。この列は,他の列と異なり,編集できるようになっています。『青空文庫サンプル』の設定では,「メモ1」列が自由記述の入力,「メモ2」が選択式の入力となっています。
「自由記述」の列の場合,その言葉のとおり,自由な記入ができます。ただし,長さは255文字までです。一方,「選択式」の場合,一覧からの選択して入力します。『青空文庫サンプル』の設定では,○×△からの選択です。選択項目の指定は,config_aozora_sample.db.xml の field_setting 要素を参照してください。
なお,効率的なアノテーションのために,次の機能が用意されています。
編集が終わったら,ウィンドウ右下の「保存する」ボタンを押してください。編集内容がデータベースに格納されます。「元に戻す」ボタンを押すと,編集前の状態に戻ります。
自動アノテーションは,『ひまわり』とは別の外部プログラムを使って,『ひまわり』に登録されている言語資料にアノテーションします。『青空文庫サンプル』には,形態素解析システム JUMAN と MeCab 用の設定が入っており,言語資料に形態素解析結果をアノテーションすることができます。
自動アノテーションを実行するには,[ツール]→[アノテーション]→[外部プログラム]から実行するプログラムを選択して下さい。選択したプログラムによるアノテーションが開始され,結果がデータベースに格納されます。
この機能を使う場合は,次の点に留意して下さい。
自動アノテーションが完了したら,専用の設定ファイル(DB検索用設定ファイル)を3.1節の方法で読み込んでください。5章の手順で『ひまわり』に言語資料をインポートした場合は,末尾が,.db.xml の設定ファイル(例: config_コーパス名.db.xml)がDB検索用設定ファイルです。
DB検索用設定ファイルを読み込むと,次のように,結果表示欄に形態素解析結果用の列(基本形,読み,品詞)が現れます。形態素解析結果のうち,どの情報を表示するかは,設定ファイルの annotator 要素,fieldsetting 要素などを参照してください。
config_aozora_sample_db.xml の設定では,次のような検索対象(一部)が設定されています。
データインポート機能は,アノテーション情報を格納したファイルに基づいて,言語資料にアノテーションする機能です。[ツール]→[アノテーション]→[ファイル]で呼び出します。
本機能は,ver.1.5では使用が制限されています。