全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージの履歴差分(No.42)

国語研究所の施設整備に伴い，関連のサービスを次の期間，停止します。
期間：2024年4月27日（土）9:00～2024年4月29日（月・祝）17:30
対象：Web用例データベース（複合動詞，サ変動詞，形容詞）・『ひまわり』＆関連資料（ダウンロードもできません），FishWatchr & FishWatchr Miniなど
追加された行はこの色です。
削除された行はこの色です。
[[全文検索システム『ひまわり』]]

#br
&color(red){&size(20){本ページは，現在構築中です。};};
#br
#br

RIGHT:作成者：山口昌也 (国立国語研究所)
RIGHT:2016-xx-xx
#br

*１．パッケージの概要 [#s154b64b]
- 本パッケージは，[[『名大会話コーパス』:https://nknet.ninjal.ac.jp/nuc/templates/nuc.html]]を『ひまわり』用にインポートしたデータです。インポート時には，形態素解析結果（短単位），話者・会話情報などを取り込んでいます。
- 本パッケージの作成は，国立国語研究所共同研究プロジェクト[[「大規模日常会話コーパスに基づく話し言葉の多角的研究」>http://pj.ninjal.ac.jp/conversation/]] の一環として行われました。

* ２．収録データの内容 [#z9aa0bc5]
- 原資料：[[『名大会話コーパス』のテキストデータ:https://nknet.ninjal.ac.jp/nuc/nuc.zip]]
- 原資料からの変更点
-- 原資料の発話部分には，基本的に変更を加えていません。ただし，検索の利便性を考慮し，以下のような処理を行っています。
--- 主として，形式上の誤りの修正を行っています。詳細は，「[[テキスト整形と形態素解析>./テキスト整形と形態素解析]]」を参照してください。
--- 発話冒頭の発話者名は，全文検索対象から除外し，発話の属性として記述しています。また，原資料には相づちの話者情報が表示されていませんが，話者が特定できる場合（会話参加者が二人の場合）にはその発話者IDを，特定できない場合（会話参加者が三人以上の場合）には"unknown"という情報を記述しています。
--- 相づちなどの挿入要素は，包含する発話から独立させ，本来の発話場所とは異なる位置に記述しています。そのため，『ひまわり』の検索結果の前後文脈欄では，挿入句が本来と異なる位置に標示される場合があります。
--- ＜笑い＞など，原資料に付与されている独自タグは，全文検索対象から除外し，付属情報として記述しています。
-- 機械的に形態素解析を行い，一部手修正を行った後，結果をタグ付けしています。詳細は，「[[テキスト整形と形態素解析>./テキスト整形と形態素解析]]」を参照してください。
-- 原資料の各データファイルは，パッケージ化する際に，連結しています。そのため，データファイルの先頭，もしくは，末尾の文字列を検索すると，その前後文脈として，別のデータファイルの文字列が表示される場合があります。

* ３．パッケージのダウンロード [#b1b46d21]
- 『名大会話コーパス』パッケージ（試験公開版，2016-xx-xx，xxMB）
- 本パッケージの使用条件
-- 本パッケージの複製，改変は，個人の利用の範囲内で行なうことが可能です。ただし，再配布は禁止いたします。
-- 本パッケージを利用したことにより直接的，間接的に生じる，いかなる損害も保証しません。
-- 原資料の著作権は，＃＃＃氏にあります。


* ４．利用方法 [#kbe9551c]
** 4.1 インストール [#o4cc977a]
+ [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.5.4以上)をインストールしてください([[インストール方法>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%CD%F8%CD%D1%BC%D4%A5%DE%A5%CB%A5%E5%A5%A2%A5%EB%2F1_5%2F%A3%B2%A1%A5%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB]])。
+ パッケージをダウンロードしてください。
+ 『ひまわり』を起動し，ダウンロードした zip ファイルを（起動した）『ひまわり』にドラッグ＆ドロップするか，[ファイル]⇒[インストール]で指定して下さい(&color(red){「インポート」ではありません};)。
+ 「インストールが終了しました」というメッセージが出れば，インストールは完了です。すぐに検索できる状態になります。
+ 次回以降は，『ひまわり』がインストールされているフォルダにある config_meidai.xml を『ひまわり』にドラッグ＆ドロップするか，[ファイル]⇒[新規]で指定すれば，本コーパスを検索できる状態になります。

** 4.2 検索対象の詳細 [#m83f935a]
　ここでは，『名大会話コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については，[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。

#ref(./search_target.png,left,around,80%,検索対象);

　本パッケージでは，次の項目を対象として，検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_5/４．詳細な検索を行う]]もあわせてご覧ください。
#clear

*** 全文 [#f9ab4522]
- 形態論情報を考慮せずに，全文検索します。なお，検索結果として表示される，品詞などの短単位に関する情報は，検索文字列の先頭の文字列を規準にしています。
- 検索例
-- 検索例1a：「日常」で全文検索します。
-- 検索例1b：「日常」で全文検索し，その後文脈が「の」で始まる場合にマッチします。

|&ref(./full_text_simple.png,wrap,80%);|&ref(./full_text_fc.png,wrap,80%);|
|検索例1a|検索例1b|h


*** 全文（正規表現，短単位），全文（正規表現，発話） [#ldd2d929]
-短単位（出現形），発話（原資料の１行に相当）の範囲内で，正規表現検索します。検索結果の「キー」欄には，検索式と一致した部分のみが表示されます。インデックスを用いないため，「全文」「出現形（短単位）」よりも検索速度は低下します。
- 検索例
-- 検索例2a：短単位に「日」を含む場合にマッチします。
-- 検索例2b：短単位の先頭が「日」の場合にマッチします(正規表現「^日」)。
-- 検索例2c：短単位の「日」を含む場合にマッチします(正規表現「^.*日.*」)。2aと異なり，「キー」欄には，短単位全体が表示されます。

|&ref(./full_text_reg_simple.png,80%);|&ref(./full_text_reg_head.png,80%);|&ref(./full_text_reg_incl.png,80%);|
|検索例2a|検索例2b|検索例2c|h

*** 出現形（短単位） [#p60dfcda]
- 短単位の出現形をキーとして，部分一致検索を行います。文字列の照合には，部分的に正規表現を使うことができます。検索結果の「キー」欄には，検索式と一致した短単位(出現形)全体が表示されます。
- 検索例
-- 検索例3a：短単位の出現形に「日」を含む場合にマッチします。
-- 検索例3b：短単位の出現形が「日」の場合にマッチします。

|&ref(./short_simple.png,80%);|&ref(./short_em.png,80%);|
|検索例3a|検索例3b|h


*** 品詞(短単位) [#f4763d92]
- 短単位の品詞をキーとして部分一致検索します。文字列の照合には，部分的に正規表現を使うことができます。検索結果の「キー」欄には，検索式と一致した短単位(出現形)全体が表示されます。
- 検索例
-- 検索例4a：短単位の品詞が「名詞」を含む場合にマッチします（「代名詞」にもマッチします）。
-- 検索例4b：短単位の品詞が「名詞-数詞」の場合にマッチします。

|&ref(./pos_simple.png,80%);|&ref(./pos_em.png,80%);|
|検索例4a|検索例4b|h


*** 語彙素(短単位) [#w63964c8]
- 短単位の語彙素をキーとして部分一致検索します。文字列の照合には，部分的に正規表現を使うことができます。
- 検索例
-- 検索例5a：短単位の語彙素に「食べる」を含む場合にマッチします。
-- 検索例5b：短単位の語彙素の先頭が「日」の場合にマッチします。
-- 検索例5c：短単位の語彙素が「日」の場合にマッチします。

|&ref(./lem_simple.png,80%);|&ref(./lem_head.png,80%);|&ref(./lem_em.png,80%);|
|検索例5a|検索例5b|検索例5c|h


*** 語彙素読み(短単位) [#v2f073e2]
- 短単位の語彙素の読み（カタカナ）をキーとして部分一致検索します。文字列の照合には，部分的に正規表現を使うことができます。
- 検索例
-- 検索例6a：短単位の語彙素の読みに「ノム」を含む場合にマッチします。
-- 検索例6b：短単位の語彙素の読みが「ノム」の場合にマッチします。

|&ref(./read_simple.png,80%);|&ref(./read_em.png,80%);|
|検索例6a|検索例6b|h


** 4.3 検索結果 [#u362bed2]

検索結果には，次の情報が含まれます。


|~列名|~備考|
||450|c
|前文脈|検索文字列の前文脈|
|キー|検索文字列|
|後文脈|検索文字列の後文脈|
|データ名|検索文字列を含む会話データの名前（原資料のファイル名と対応）|
|話者|検索文字列を包含する発話の話者|
|話者性別|話者の性別|
|話者年齢|話者の年齢|
|話者出身地|話者の出身地|
|話者居住地|話者の居住地|
|話者情報|話者に関するその他の情報|
|品詞|当該キー（先頭文字を包含する短単位の）の品詞|
|活用型|当該キー（先頭文字を包含する短単位の）の活用型|
|活用形|当該キー（先頭文字を包含する短単位の）の活用形|
|語彙素|当該キー（先頭文字を包含する短単位の）の語彙素|
|読み|当該キー（先頭文字を包含する短単位の）の語彙素の読み|
|語彙素-2|当該キー（先頭文字を包含する短単位の）の二つ前に前出する短単位の語彙素|
|語彙素-1|当該キー（先頭文字を包含する短単位の）の一つ前に前出する短単位の語彙素|
|語彙素1|当該キー（先頭文字を包含する短単位の）の一つ後に後続する短単位の語彙素|
|語彙素2|当該キー（先頭文字を包含する短単位の）の二つ後に後続する短単位の語彙素|
|全話者|当該の会話に参加しているすべての話者（「,」で区切られる）|
|収録時間|当該の会話の収録時間|
|収録年月日|当該の会話の収録年月日|
|収録場所|当該の会話の収録場所|
|話者関係|当該の会話の話者間の関係|
|補足情報|当該の会話の補足情報|
|短単位数|当該の会話データに含まれる総短単位数|
|相づち|キーが挿入要素（相づちなど）の一部の場合１，そうでない場合０|

** 4.4 会話データ全体の閲覧 [#lfc9a9fd]
　検索結果をダブルクリックすると，当該のキーを含んだ会話データ全体を閲覧することができます。
- 当該のキーは，赤色で表示されます。
- 縦棒(｜)は，短単位の区切りを表します。
- 個々の短単位にマウスカーソルを合わせると，短単位の各種属性が表示されます。


#br
#ref(./browse.png,wrap,90%)
#br


#qa1(masaya,masaya,[himawari-meidai],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)
全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ の履歴差分(No.42)

全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージの履歴差分(No.42)