[[全文検索システム『ひまわり』]] #br &color(red){&size(20){本ページは,現在構築中です。};}; #br #br RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2016-xx-xx #br *1.パッケージの概要 [#bb106cfb] 本パッケージは,[[『名大会話コーパス』:https://nknet.ninjal.ac.jp/nknet/ndata/nuc/]]を『ひまわり』用にインポートしたデータです。インポート時には,形態素解析結果(短単位),話者・会話情報などを取り込んでいます。 * 2.収録データの内容 [#i3c5cf49] - 原資料:[[『名大会話コーパス』のテキストデータ:https://nknet.ninjal.ac.jp/nuc/nuc.zip]] - 原資料からの変更点 -- 原資料の発話部分には,基本的に変更を加えていない。ただし,全文検索の利便性を考慮し,以下のような処理を行っている。 --- 各発話(原資料の1行に相当)の発話者情報は,全文検索対象から除外し,発話の属性として記述している。 --- 挿入句は,包含する発話から独立させ,包含する発話の前後に移動している。そのため,『ひまわり』の検索結果の前後文脈欄では,挿入句が本来と異なる位置に標示される場合がある。 --- <笑い>など,原資料に付与されている独自タグは,全文検索対象から除外し,付属情報として,記述している。 -- 機械的に形態素解析を行い,一部手修正を行った後,結果をタグ付けしている。詳細は,###を参照のこと。 * 3.パッケージの利用条件 [#o0106457] * 4.ダウンロード [#me10e8b5] * 5.利用方法 [#qe18373f] ** 5.1 インストール [#z89850e8] + [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.5.4以上)をインストールしてください。 + パッケージをダウンロードしてください。 + ダウンロードした zip ファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい(&color(red){「インポート」ではありません};)。 + 「インストールが終了しました」というメッセージが出れば,インストールは完了です。すぐに検索できる状態になります。 + 次回以降は,『ひまわり』がインストールされているフォルダにある config_meidai.xml を『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[新規]で指定すれば,本コーパスを検索できる状態になります。 ** 5.2 検索対象の詳細 [#s97c59b5] ここでは,『名大会話コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。 #ref(./search_target.png,right,around,80%,検索対象); 次の項目を対象として,検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_5/4.詳細な検索を行う]]もあわせてご覧ください。 #clear *** 全文 [#f9ab4522] - 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位・長単位に関する情報は,検索文字列の先頭の文字列を規準にしています。 - 検索例 -- 検索例1a:「日常」で全文検索します。 -- 検索例1b:「日常」で全文検索し,その後文脈が「の」で始まる場合にマッチします。 |&ref(./full_text_simple.png,80%,wrap);|&ref(./full_text_fc.png,80%,wrap);| |検索例1a|検索例1b|h *** 全文(正規表現,短単位),全文(正規表現,発話) [#e239196b] -短単位(出現形),発話(原資料の1行に相当)の範囲内で,正規表現検索します。検索結果の「キー」欄には,検索式と一致した部分のみが表示されます。インデックスを用いないため,「全文」「出現形(短単位)」よりも検索速度は低下します。 - 検索例 -- 検索例2a:短単位に「日」を含む場合にマッチします。 -- 検索例2b:短単位の先頭に「日」を含む場合にマッチします。 -- 検索例2c:短単位の「日」を含む場合にマッチします。2aと異なり,「キー」欄には,短単位全体が表示されます。 |&ref(./search_example1.png,80%);|&ref(./search_example2.png,80%);|&ref(./search_example3.png,80%);| |検索例2a|検索例2b|検索例2c|h *** 出現形(短単位) [#c7093480] - 短単位(出現形)で部分一致検索を行います。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。文字列の照合には,部分的に正規表現を使うことができます。 - 検索例 -- 検索例3a:短単位に「日」を含む場合にマッチします。 -- 検索例3b:短単位が「日」の場合にマッチします。 |&ref(./short_simple.png,80%);|&ref(./short_em.png,80%);| |検索例3a|検索例3b|h *** 品詞(短単位) [#o527dc42] - 品詞をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。 - 検索例 -- 検索例4a:出現形(短単位)に「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。 -- 検索例4b:出現形(短単位)が「名詞」の場合にマッチします。 |&ref(./pos_simple.png,80%);|&ref(./pos_pf.png,80%);| |検索例4a|検索例4b|h *** 語彙素(短単位) [#u53f92d0] - 品詞をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。 - 検索例 -- 検索例5a:出現形(短単位)に「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。 -- 検索例5b:出現形(短単位)が「名詞」の場合にマッチします。 |&ref(./pos_simple.png,80%);|&ref(./pos_pf.png,80%);| |検索例3a|検索例3b|h *** 語彙素読み(短単位) [#g89309a0] - 品詞をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。 - 検索例 -- 検索例6a:出現形(短単位)に「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。 -- 検索例6b:出現形(短単位)が「名詞」の場合にマッチします。 |&ref(./pos_simple.png,80%);|&ref(./pos_pf.png,80%);| |検索例3a|検索例3b|h ** 5.3 検索結果 [#q5053fee] 検索結果には,次の情報が含まれます。「[[短単位・長単位データマニュアル>http://www.ninjal.ac.jp/corpus_center/csj/manu-f/wdb.pdf]]」の3.2節も合わせて参照して下さい。 // |~列名|~備考| // ||450|c // |前文脈|| // |出現形(検索文字列)|| // |後文脈|| // |代表表記|短単位の情報&br;&br;「活用型」「その他1」〜「その他3」は,短単位・長単位データマニュアル」の「活用の種類」,「その他の情報1」〜「その他の情報3」に対応| // |代表形|~| // |品詞|~| // |活用形|~| // |活用型|~| // |その他1|~| // |その他2|~| // |その他3|~| // |発音形|~| // |代表表記(長)|長単位の情報| // |代表形(長)|~| // |品詞(長)|~| // |活用形(長)|~| // |活用型(長)|~| // |その他1(長)|~| // |その他2(長)|~| // |その他3(長)|~| // |出現形(後)|後続する短単位の情報| // |代表表記(後)|~| // |代表形(後)|~| // |その他1(後)|~| // |出現形(前)|前接する短単位の情報| // |代表表記(前)|~| // |代表形(前)|~| // |その他1(前)|~| // |講演ID|当該の転記基本単位の情報| // |開始時間|~| // |終了時間|~| // |コア|当該の転記テキストがコアに含まれるか否かを表すフラグ&br;T: 含む場合T,F:含まない場合| ** 5.4 会話全体の閲覧 [#i1e38069] 検索結果(「品詞」「活用形」欄を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。 // -/ : 短単位の区切り // -| : 長単位の区切り // -$ : 節境界 // -検索文字列は,赤色で表示されます。 // -個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。 // -長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。 // -節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。 // #br // #ref(./csj_manual_sample_browse.png) // #br