#navi(../) //&size(20){&color(red){本ページは現在構築中です};}; * 6. 言語資料にアノテーションする [#ia084527] ** 6.1 概要 [#t6b39075] 『ひまわり』には,3種類のアノテーション機能があります。これらの機能を使うと,登録されている言語資料に付加的に情報をアノテーション(注釈付け)することができます。アノテーションしたデータは,元の言語資料にアノテーションされているデータと同様に検索することができます。 - 人手アノテーション ... 検索結果に対して人手でアノテーションします - 外部アノテーション ... 形態素解析システムなど外部システムを使ったアノテーションです - データのインポート ... アノテーションデータをファイルからインポートします アノテーションした結果は,『ひまわり』内部のデータベースに保存されます。ただし,登録されている言語資料自体(XMLデータ)には変更は加えません。 ** 6.2 人手アノテーション [#p0e74d35] この機能は,検索した結果に対して,なんらかの情報をアノテーションするために利用します。例えば,必要な用例には○,不要な用例には×をつけるといった利用方法です。 実際の例として,『ひまわり』に同梱されている『青空文庫サンプル』に対して,人手アノテーションしてみましょう。『青空文庫サンプル』は,[[3.1節>全文検索システム『ひまわり』/利用者マニュアル/1_5/3.検索してみよう#kbc7241f]]を参考にして,設定ファイル config_aozora_sample.db.xml を読み込んでください。 次の図のように,検索結果欄の「メモ1」「メモ2」列があります。この列は,他の列と異なり,編集できるようになっています。『青空文庫サンプル』の設定では,「メモ1」列が自由記述の入力,「メモ2」が選択式の入力となっています。 #ref(./example_edit.png,wrap,center) 「自由記述」の列の場合,その言葉のとおり,自由な記入ができます。ただし,長さは255文字までです。一方,「選択式」の場合,一覧からの選択して入力します。『青空文庫サンプル』の設定では,○×△からの選択です。選択項目の指定は,config_aozora_sample.db.xml の field_setting 要素を参照してください。 なお,効率的なアノテーションのために,次の機能が用意されています。 - アノテーションしたい範囲を選択し,右クリック→[マーク]を行うと,選択範囲の先頭の値がすべての欄にコピーされます。 - 選択範囲が1セルの場合,その値が当該の列のすべての欄にコピーされます。 編集が終わったら,ウィンドウ右下の「保存する」ボタンを押してください。編集内容がデータベースに格納されます。「元に戻す」ボタンを押すと,編集前の状態に戻ります。 #ref(./save_annotation.png,wrap,center) ** 6.3 自動アノテーション [#q6041ade] 自動アノテーションは,『ひまわり』とは別の外部プログラムを使って,『ひまわり』に登録されている言語資料にアノテーションします。『青空文庫サンプル』には,形態素解析システム JUMAN と MeCab 用の設定が入っており,言語資料に形態素解析結果をアノテーションすることができます。 自動アノテーションを実行するには,[ツール]→[アノテーション]→[外部プログラム]から実行するプログラムを選択して下さい。選択したプログラムによるアノテーションが開始され,結果がデータベースに格納されます。 この機能を使う場合は,次の点に留意して下さい。 - [[JUMAN>http://nlp.ist.i.kyoto-u.ac.jp/index.php?cmd=read&page=JUMAN&alias[]=%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0JUMAN]] もしくは [[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/]] を事前にインストールしておいて下さい。検証は,次の環境で行なっています。解析時の文字コードは,OSのデフォルト値(Windows の場合はShift_JIS,Linux/MacOS ではUTF-8)を想定しています。 -- JUMAN: ver.7.0 Windows 32bit版,および,Ubuntu 12.04版(ソースからコンパイル) -- MeCab: ver.0.996 Windows版,および,Ubuntu 12.04 版(ver.0.98-1 + mecab-ipadic-utf8) - &color(red){すでに自動アノテーションしている場合は,上書きされます。}; - 言語資料が巨大な場合,アノテーションに時間がかかる場合があります。また,ハードディスクに十分な空き容量が必要です。 - 処理の途中でエラーが発生することを考慮し,himawari.exe ではなく,himawari_debug.exe を使用することをお勧めします。himawari_debug.exe と himawari.exe に機能的な違いはありませんが,himawari_debug.exe は処理途中のメッセージを表示します。 自動アノテーションが完了したら,専用の設定ファイル(DB検索用設定ファイル)を[[3.1節>全文検索システム『ひまわり』/利用者マニュアル/1_5/3.検索してみよう#kbc7241f]]の方法で読み込んでください。5章の手順で『ひまわり』に言語資料をインポートした場合は,末尾が,.db.xml の設定ファイル(例: config_コーパス名.db.xml)がDB検索用設定ファイルです。 DB検索用設定ファイルを読み込むと,次のように,結果表示欄に形態素解析結果用の列(基本形,読み,品詞)が現れます。形態素解析結果のうち,どの情報を表示するかは,設定ファイルの annotator 要素,fieldsetting 要素などを参照してください。 #ref(./result_db_search.png,wrap,center) config_aozora_sample_db.xml の設定では,次のような検索対象(一部)が設定されています。 #ref(./search_target_db.png,wrap,right,around) :本文|全文検索します。検索文字列が形態素の場合,形態素解析結果用の列(基本形,読み,品詞)に情報が表示されます。形態素ではない場合は,空欄になります。 :本文(正規表現)|本文を全文検索します。正規表現での検索が可能です。ただし,検索時に索引を用いないので,「本文」検索に比べて低速です。 :基本形|基本形で検索します。活用語を検索する際に便利です。 :読み|読みで検索します。なお,読みは,JUMANの場合,ひらがな,MeCabの場合,カタカナで入力します。 :出現形|出現形で検索します。 :ルビ(rt)完全一致|本文に付与されているルビを検索します。文字列のマッチングは,完全一致です。 :ルビ(rt)部分一致|本文に付与されているルビを検索します。文字列のマッチングは,部分一致です。 :メモ1|「メモ1」列を検索します。文字列のマッチングは,部分一致(SQL の LIKE 検索に準じます)です。例えば,「未」で始まる文字列は「未%」,「未」を含む文字列は「%未%」です。 :メモ2|「メモ2」列を検索します。この列も部分一致検索となります。 #clear ** 6.4 データインポート [#xbb7ed4a] データインポート機能は,アノテーション情報を格納したファイルに基づいて,言語資料にアノテーションする機能です。[ツール]→[アノテーション]→[ファイル]で呼び出します。 &color(red){本機能は,ver.1.5bでは使用が制限されています。}; &color(red){本機能は,ver.1.5では使用が制限されています。}; //** 6.5 設定 [#me951a0e] // ここでは,アノテーションに関する設定について説明します。 #navi(../)