国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){本ページは,現在構築中です。};};
#br
#br
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2016-xx-xx
#br
*1.パッケージの概要 [#s154b64b]
- 本パッケージは,[[『名大会話コーパス』:https://nknet.ninjal.ac.jp/nuc/templates/nuc.html]]を『ひまわり』用にインポートしたデータです。インポート時には,形態素解析結果(短単位),話者・会話情報などを取り込んでいます。
- 本パッケージの作成は,国立国語研究所共同研究プロジェクト[[「大規模日常会話コーパスに基づく話し言葉の多角的研究」>http://pj.ninjal.ac.jp/conversation/]] の一環として行われました。
* 2.収録データの内容 [#z9aa0bc5]
- 原資料:[[『名大会話コーパス』のテキストデータ:https://nknet.ninjal.ac.jp/nuc/nuc.zip]]
- 原資料からの変更点
-- 原資料の発話部分には,基本的に変更を加えていません。ただし,検索の利便性を考慮し,以下のような処理を行っています。
--- 主として,形式上の誤りの修正を行っています。詳細は,「[[テキスト整形と形態素解析>./テキスト整形と形態素解析]]」を参照してください。
--- 発話冒頭の発話者名は,全文検索対象から除外し,発話の属性として記述しています。また,原資料には相づちの話者情報が表示されていませんが,話者が特定できる場合(会話参加者が二人の場合)にはその発話者IDを,特定できない場合(会話参加者が三人以上の場合)には"unknown"という情報を記述しています。
--- 相づちなどの挿入要素は,包含する発話から独立させ,本来の発話場所とは異なる位置に記述しています。そのため,『ひまわり』の検索結果の前後文脈欄では,挿入句が本来と異なる位置に標示される場合があります。
--- <笑い>など,原資料に付与されている独自タグは,全文検索対象から除外し,付属情報として記述しています。
-- 機械的に形態素解析を行い,一部手修正を行った後,結果をタグ付けしています。詳細は,「[[テキスト整形と形態素解析>./テキスト整形と形態素解析]]」を参照してください。
-- 原資料の各データファイルは,パッケージ化する際に,連結しています。そのため,データファイルの先頭,もしくは,末尾の文字列を検索すると,その前後文脈として,別のデータファイルの文字列が表示される場合があります。
* 3.パッケージのダウンロード [#b1b46d21]
- 『名大会話コーパス』パッケージ(試験公開版,2016-xx-xx,xxMB)
- 本パッケージの使用条件
-- 本パッケージの複製,改変は,個人の利用の範囲内で行なうことが可能です。ただし,再配布は禁止いたします。
-- 本パッケージを利用したことにより直接的,間接的に生じる,いかなる損害も保証しません。
-- 原資料の著作権は,###氏にあります。
* 4.利用方法 [#kbe9551c]
** 4.1 インストール [#o4cc977a]
+ [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.5.4以上)をインストールしてください([[インストール方法>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%CD%F8%CD%D1%BC%D4%A5%DE%A5%CB%A5%E5%A5%A2%A5%EB%2F1_5%2F%A3%B2%A1%A5%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB]])。
+ パッケージをダウンロードしてください。
+ 『ひまわり』を起動し,ダウンロードした zip ファイルを(起動した)『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい(&color(red){「インポート」ではありません};)。
+ 「インストールが終了しました」というメッセージが出れば,インストールは完了です。すぐに検索できる状態になります。
+ 次回以降は,『ひまわり』がインストールされているフォルダにある config_meidai.xml を『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[新規]で指定すれば,本コーパスを検索できる状態になります。
** 4.2 検索対象の詳細 [#m83f935a]
ここでは,『名大会話コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。
#ref(./search_target.png,left,around,80%,検索対象);
本パッケージでは,次の項目を対象として,検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_5/4.詳細な検索を行う]]もあわせてご覧ください。
#clear
*** 全文 [#f9ab4522]
- 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位に関する情報は,検索文字列の先頭の文字列を規準にしています。
- 検索例
-- 検索例1a:「日常」で全文検索します。
-- 検索例1b:「日常」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
|&ref(./full_text_simple.png,wrap,80%);|&ref(./full_text_fc.png,wrap,80%);|
|検索例1a|検索例1b|h
*** 全文(正規表現,短単位),全文(正規表現,発話) [#ldd2d929]
-短単位(出現形),発話(原資料の1行に相当)の範囲内で,正規表現検索します。検索結果の「キー」欄には,検索式と一致した部分のみが表示されます。インデックスを用いないため,「全文」「出現形(短単位)」よりも検索速度は低下します。
- 検索例
-- 検索例2a:短単位に「日」を含む場合にマッチします。
-- 検索例2b:短単位の先頭が「日」の場合にマッチします(正規表現「^日」)。
-- 検索例2c:短単位の「日」を含む場合にマッチします(正規表現「^.*日.*」)。2aと異なり,「キー」欄には,短単位全体が表示されます。
|&ref(./full_text_reg_simple.png,80%);|&ref(./full_text_reg_head.png,80%);|&ref(./full_text_reg_incl.png,80%);|
|検索例2a|検索例2b|検索例2c|h
*** 出現形(短単位) [#p60dfcda]
- 短単位の出現形をキーとして,部分一致検索を行います。文字列の照合には,部分的に正規表現を使うことができます。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。
- 検索例
-- 検索例3a:短単位の出現形に「日」を含む場合にマッチします。
-- 検索例3b:短単位の出現形が「日」の場合にマッチします。
|&ref(./short_simple.png,80%);|&ref(./short_em.png,80%);|
|検索例3a|検索例3b|h
*** 品詞(短単位) [#f4763d92]
- 短単位の品詞をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。
- 検索例
-- 検索例4a:短単位の品詞が「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。
-- 検索例4b:短単位の品詞が「名詞-数詞」の場合にマッチします。
|&ref(./pos_simple.png,80%);|&ref(./pos_em.png,80%);|
|検索例4a|検索例4b|h
*** 語彙素(短単位) [#w63964c8]
- 短単位の語彙素をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。
- 検索例
-- 検索例5a:短単位の語彙素に「食べる」を含む場合にマッチします。
-- 検索例5b:短単位の語彙素の先頭が「日」の場合にマッチします。
-- 検索例5c:短単位の語彙素が「日」の場合にマッチします。
|&ref(./lem_simple.png,80%);|&ref(./lem_head.png,80%);|&ref(./lem_em.png,80%);|
|検索例5a|検索例5b|検索例5c|h
*** 語彙素読み(短単位) [#v2f073e2]
- 短単位の語彙素の読み(カタカナ)をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。
- 検索例
-- 検索例6a:短単位の語彙素の読みに「ノム」を含む場合にマッチします。
-- 検索例6b:短単位の語彙素の読みが「ノム」の場合にマッチします。
|&ref(./read_simple.png,80%);|&ref(./read_em.png,80%);|
|検索例6a|検索例6b|h
** 4.3 検索結果 [#u362bed2]
検索結果には,次の情報が含まれます。
|~列名|~備考|
||450|c
|前文脈|検索文字列の前文脈|
|キー|検索文字列|
|後文脈|検索文字列の後文脈|
|データ名|検索文字列を含む会話データの名前(原資料のファイル名と対応)|
|話者|検索文字列を包含する発話の話者|
|話者性別|話者の性別|
|話者年齢|話者の年齢|
|話者出身地|話者の出身地|
|話者居住地|話者の居住地|
|話者情報|話者に関するその他の情報|
|品詞|当該キー(先頭文字を包含する短単位の)の品詞|
|活用型|当該キー(先頭文字を包含する短単位の)の活用型|
|活用形|当該キー(先頭文字を包含する短単位の)の活用形|
|語彙素|当該キー(先頭文字を包含する短単位の)の語彙素|
|読み|当該キー(先頭文字を包含する短単位の)の語彙素の読み|
|語彙素-2|当該キー(先頭文字を包含する短単位の)の二つ前に前出する短単位の語彙素|
|語彙素-1|当該キー(先頭文字を包含する短単位の)の一つ前に前出する短単位の語彙素|
|語彙素1|当該キー(先頭文字を包含する短単位の)の一つ後に後続する短単位の語彙素|
|語彙素2|当該キー(先頭文字を包含する短単位の)の二つ後に後続する短単位の語彙素|
|全話者|当該の会話に参加しているすべての話者(「,」で区切られる)|
|収録時間|当該の会話の収録時間|
|収録年月日|当該の会話の収録年月日|
|収録場所|当該の会話の収録場所|
|話者関係|当該の会話の話者間の関係|
|補足情報|当該の会話の補足情報|
|短単位数|当該の会話データに含まれる総短単位数|
|相づち|キーが挿入要素(相づちなど)の一部の場合1,そうでない場合0|
** 4.4 会話データ全体の閲覧 [#lfc9a9fd]
検索結果をダブルクリックすると,当該のキーを含んだ会話データ全体を閲覧することができます。
- 当該のキーは,赤色で表示されます。
- 縦棒(|)は,短単位の区切りを表します。
- 個々の短単位にマウスカーソルを合わせると,短単位の各種属性が表示されます。
#br
#ref(./browse.png,wrap,90%)
#br
#qa1(masaya,masaya,[himawari-meidai],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)