全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションするの変更点

追加された行はこの色です。
削除された行はこの色です。
全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションするへ行く。
全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションするの差分を削除
#navi(../)

//&size(20){&color(red){本ページは現在構築中です};};


* 6. 言語資料にアノテーションする [#ia084527]

** 6.1 概要 [#t6b39075]
　『ひまわり』には，３種類のアノテーション機能があります。これらの機能を使うと，登録されている言語資料に付加的に情報をアノテーション（注釈付け）することができます。アノテーションしたデータは，元の言語資料にアノテーションされているデータと同様に検索することができます。

- 人手アノテーション ... 検索結果に対して人手でアノテーションします
- 外部アノテーション ... 形態素解析システムなど外部システムを使ったアノテーションです
- データのインポート ... アノテーションデータをファイルからインポートします

　アノテーションした結果は，『ひまわり』内部のデータベースに保存されます。ただし，登録されている言語資料自体（XMLデータ）には変更は加えません。

** 6.2 人手アノテーション [#p0e74d35]
　この機能は，検索した結果に対して，なんらかの情報をアノテーションするために利用します。例えば，必要な用例には○，不要な用例には×をつけるといった利用方法です。

　実際の例として，『ひまわり』に同梱されている『青空文庫サンプル』に対して，人手アノテーションしてみましょう。『青空文庫サンプル』は，[[3.1節>全文検索システム『ひまわり』/利用者マニュアル/1_5/３．検索してみよう#kbc7241f]]を参考にして，設定ファイル config_aozora_sample.db.xml を読み込んでください。

　次の図のように，検索結果欄の「メモ１」「メモ２」列があります。この列は，他の列と異なり，編集できるようになっています。『青空文庫サンプル』の設定では，「メモ１」列が自由記述の入力，「メモ２」が選択式の入力となっています。

#ref(./example_edit.png,wrap,center)

　「自由記述」の列の場合，その言葉のとおり，自由な記入ができます。ただし，長さは255文字までです。一方，「選択式」の場合，一覧からの選択して入力します。『青空文庫サンプル』の設定では，○×△からの選択です。選択項目の指定は，config_aozora_sample.db.xml の field_setting 要素を参照してください。

　なお，効率的なアノテーションのために，次の機能が用意されています。

- アノテーションしたい範囲を選択し，右クリック→[マーク]を行うと，選択範囲の先頭の値がすべての欄にコピーされます。
- 選択範囲が１セルの場合，その値が当該の列のすべての欄にコピーされます。

　編集が終わったら，ウィンドウ右下の「保存する」ボタンを押してください。編集内容がデータベースに格納されます。「元に戻す」ボタンを押すと，編集前の状態に戻ります。

#ref(./save_annotation.png,wrap,center)


** 6.3 自動アノテーション [#q6041ade]
　自動アノテーションは，『ひまわり』とは別の外部プログラムを使って，『ひまわり』に登録されている言語資料にアノテーションします。『青空文庫サンプル』には，形態素解析システム JUMAN と MeCab 用の設定が入っており，言語資料に形態素解析結果をアノテーションすることができます。

　自動アノテーションを実行するには，[ツール]→[アノテーション]→[外部プログラム]から実行するプログラムを選択して下さい。選択したプログラムによるアノテーションが開始され，結果がデータベースに格納されます。

　この機能を使う場合は，次の点に留意して下さい。

- [[JUMAN>http://nlp.ist.i.kyoto-u.ac.jp/index.php?cmd=read&page=JUMAN&alias[]=%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0JUMAN]] もしくは [[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/]] を事前にインストールしておいて下さい。検証は，次の環境で行なっています。解析時の文字コードは，OSのデフォルト値(Windows の場合はShift_JIS，Linux/MacOS ではUTF-8)を想定しています。
-- JUMAN: ver.7.0 Windows 32bit版，および，Ubuntu 12.04版(ソースからコンパイル)
-- MeCab: ver.0.996 Windows版，および，Ubuntu 12.04 版(ver.0.98-1 + mecab-ipadic-utf8)
- &color(red){すでに自動アノテーションしている場合は，上書きされます。};
- 言語資料が巨大な場合，アノテーションに時間がかかる場合があります。また，ハードディスクに十分な空き容量が必要です。
- 処理の途中でエラーが発生することを考慮し，himawari.exe ではなく，himawari_debug.exe を使用することをお勧めします。himawari_debug.exe と himawari.exe に機能的な違いはありませんが，himawari_debug.exe は処理途中のメッセージを表示します。

　自動アノテーションが完了したら，専用の設定ファイル（DB検索用設定ファイル）を[[3.1節>全文検索システム『ひまわり』/利用者マニュアル/1_5/３．検索してみよう#kbc7241f]]の方法で読み込んでください。５章の手順で『ひまわり』に言語資料をインポートした場合は，末尾が，.db.xml の設定ファイル（例： config_コーパス名.db.xml）がDB検索用設定ファイルです。

　DB検索用設定ファイルを読み込むと，次のように，結果表示欄に形態素解析結果用の列（基本形，読み，品詞）が現れます。形態素解析結果のうち，どの情報を表示するかは，設定ファイルの annotator 要素，fieldsetting 要素などを参照してください。

#ref(./result_db_search.png,wrap,center)

　config_aozora_sample_db.xml の設定では，次のような検索対象（一部）が設定されています。

#ref(./search_target_db.png,wrap,right,around)
:本文|全文検索します。検索文字列が形態素の場合，形態素解析結果用の列（基本形，読み，品詞）に情報が表示されます。形態素ではない場合は，空欄になります。
:本文(正規表現)|本文を全文検索します。正規表現での検索が可能です。ただし，検索時に索引を用いないので，「本文」検索に比べて低速です。
:基本形|基本形で検索します。活用語を検索する際に便利です。
:読み|読みで検索します。なお，読みは，JUMANの場合，ひらがな，MeCabの場合，カタカナで入力します。
:出現形|出現形で検索します。
:ルビ(rt)完全一致|本文に付与されているルビを検索します。文字列のマッチングは，完全一致です。
:ルビ(rt)部分一致|本文に付与されているルビを検索します。文字列のマッチングは，部分一致です。
:メモ１|「メモ１」列を検索します。文字列のマッチングは，部分一致（SQL の LIKE 検索に準じます）です。例えば，「未」で始まる文字列は「未%」，「未」を含む文字列は「%未%」です。
:メモ２|「メモ２」列を検索します。この列も部分一致検索となります。

#clear

** 6.4 データインポート [#xbb7ed4a]
　データインポート機能は，アノテーション情報を格納したファイルに基づいて，言語資料にアノテーションする機能です。[ツール]→[アノテーション]→[ファイル]で呼び出します。

　&color(red){本機能は，ver.1.5bでは使用が制限されています。};
　&color(red){本機能は，ver.1.5では使用が制限されています。};
　
//** 6.5 設定 [#me951a0e]
//　ここでは，アノテーションに関する設定について説明します。

#navi(../)
全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションする の変更点

全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションするの変更点