全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージの変更点

追加された行はこの色です。
削除された行はこの色です。
全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージへ行く。
全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージの差分を削除
#author("2022-11-09T15:50:36+09:00","default:rd","rd")
#author("2023-03-24T23:58:40+09:00","default:rd","rd")
[[全文検索システム『ひまわり』]]

//#br
//&color(red){&size(20){本ページは，現在構築中です。};};
//#br
//#br

RIGHT:作成者：山口昌也 (国立国語研究所)
RIGHT:2020-04-10更新(2016-10-12作成)
RIGHT:2023-03-24更新(2016-10-12作成)
#br


*１．パッケージの概要 [#s154b64b]
- 本パッケージは，[[『名大会話コーパス』:https://mmsrv.ninjal.ac.jp/nucc/]]を『ひまわり』用にインポートしたデータです。インポート時には，形態素解析結果（短単位），話者・会話情報などを取り込んでいます。
- 本パッケージの作成は，国立国語研究所共同研究プロジェクト[[「大規模日常会話コーパスに基づく話し言葉の多角的研究」>https://www2.ninjal.ac.jp/conversation/]] の[[一環>https://www2.ninjal.ac.jp/conversation/nuc.html]]として行われました。

* ２．収録データの内容 [#z9aa0bc5]
- 原資料：[[『名大会話コーパス』のテキストデータ:https://mmsrv.ninjal.ac.jp/nucc/nucc.zip]]
- 原資料からの変更点
-- 原資料の発話部分には，基本的に変更を加えていません。ただし，検索の利便性を考慮し，以下のような処理を行っています。
--- 主として，形式上の誤りの修正を行っています。詳細は，「[[テキスト整形と形態素解析>./テキスト整形と形態素解析]]」を参照してください。
--- 発話冒頭の発話者名は，全文検索対象から除外し，発話の属性として記述しています。また，原資料には相づちの話者情報が表示されていませんが，話者が特定できる場合（会話参加者が二人の場合）にはその発話者IDを，特定できない場合（会話参加者が三人以上の場合）には"unknown"という情報を記述しています。
--- 相づちなどの挿入要素は，包含する発話から独立させ，本来の発話場所とは異なる位置に記述しています。そのため，『ひまわり』の検索結果の前後文脈欄では，挿入句が本来と異なる位置に表示される場合があります。
--- ＜笑い＞など，原資料に付与されている独自タグは，全文検索対象から除外し，付属情報として記述しています。
-- 機械的に形態素解析を行い，一部手修正を行った後，結果をタグ付けしています。
--- 詳細は，「[[テキスト整形と形態素解析>./テキスト整形と形態素解析]]」を参照してください。
--- 発話の末尾には，発話区切り用の形態素（長さ０，品詞「himawari_発話末」の形態素）が挿入されています。（2018-08-22追記）
-- 原資料の各データファイルは，パッケージ化する際に，連結しています。そのため，データファイルの先頭，もしくは，末尾の文字列を検索すると，その前後文脈として，別のデータファイルの文字列が表示される場合があります。


* ３．パッケージのダウンロード [#b1b46d21]
- [[『名大会話コーパス』パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/himawari_meidai_20200410.zip]]（2020-04-10，約93MB, [[履歴>./履歴]]）
- [[『名大会話コーパス』パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/himawari_meidai_20230324.zip]]（2023-03-24，約93MB, [[履歴>./履歴]]）
- 本パッケージの使用条件
-- 『名大会話コーパス』パッケージは，[[クリエイティブ・コモンズ 表示-非営利-改変禁止 4.0 国際 ライセンス>https://creativecommons.org/licenses/by-nc-nd/4.0/deed.ja]]で公開します。
--- 『名大会話コーパス』は，科学研究費基盤研究(B)(2)「日本語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」 （平成13年度～15年度　研究代表者　大曽美恵子）の一環として作成されました。
--- 本パッケージの作成は，国立国語研究所共同研究プロジェクト[[「大規模日常会話コーパスに基づく話し言葉の多角的研究」>https://www2.ninjal.ac.jp/conversation/]] の[[一環>https://www2.ninjal.ac.jp/conversation/nuc.html]]として行われました。
//-- 本パッケージの複製，改変は，個人の利用の範囲内で行なうことが可能です。ただし，再配布は禁止いたします。
-- 本パッケージを利用したことにより直接的，間接的に生じる，いかなる損害も保証しません。
//-- 原資料の著作権は，＃＃＃氏にあります。


* ４．利用方法 [#kbe9551c]
** 4.1 インストール [#o4cc977a]
([[ビデオ>https://youtu.be/FP09uddp1wo]]も用意しました。『ひまわり』自体の使い方は，[[ビデオチュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]を参照してください)
+ [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.7以降を推奨)をインストールしてください。
//([[インストール方法>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%CD%F8%CD%D1%BC%D4%A5%DE%A5%CB%A5%E5%A5%A2%A5%EB%2F1_5%2F%A3%B2%A1%A5%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB]])。
+ パッケージをダウンロードしてください。
+ 『ひまわり』を起動し，ダウンロードした zip ファイルを（起動した）『ひまわり』にドラッグ＆ドロップするか，[ファイル]⇒[インストール]で指定して下さい(&color(red){「インポート」ではありません};)。
+ 「インストールが終了しました」というメッセージが出れば，インストールは完了です。すぐに検索できる状態になります。
+ 次回以降は，[ファイル]⇒[コーパス選択]から選択できます。

** 4.2 検索対象の詳細 [#m83f935a]
(単語検索については，ビデオ［[[part1>https://youtu.be/KPDRHIf9NMs]]，[[part2>https://youtu.be/s6DOh2KTRoQ]]］も用意しました)

　ここでは，『名大会話コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については，[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。

#ref(./search_target.png,left,around,80%,検索対象);

　本パッケージでは，次の項目を対象として，検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_5/４．詳細な検索を行う]]もあわせてご覧ください。
#clear

*** 全文 [#f9ab4522]
- 形態論情報を考慮せずに，全文検索します。なお，検索結果として表示される，品詞などの短単位に関する情報は，検索文字列の先頭の文字列を規準にしています。
- 検索例
-- 検索例1a：「日常」で全文検索します。
-- 検索例1b：「日常」で全文検索し，その後文脈が「の」で始まる場合にマッチします。

|&ref(./full_text_simple.png,wrap,80%);|&ref(./full_text_fc.png,wrap,80%);|
|検索例1a|検索例1b|h


*** 全文（正規表現，短単位），全文（正規表現，発話） [#ldd2d929]
-短単位（出現形），発話（原資料の１行に相当）の範囲内で，正規表現検索します。検索結果の「キー」欄には，検索式と一致した部分のみが表示されます。インデックスを用いないため，「全文」「出現形（短単位）」よりも検索速度は低下します。
- 検索例
-- 検索例2a：短単位に「日」を含む場合にマッチします。
-- 検索例2b：短単位の先頭が「日」の場合にマッチします(正規表現「^日」)。
-- 検索例2c：短単位の「日」を含む場合にマッチします(正規表現「^.*日.*」)。2aと異なり，「キー」欄には，短単位全体が表示されます。

|&ref(./full_text_reg_simple.png,80%);|&ref(./full_text_reg_head.png,80%);|&ref(./full_text_reg_incl.png,80%);|
|検索例2a|検索例2b|検索例2c|h

*** 出現形（短単位） [#p60dfcda]
- 短単位の出現形をキーとして，部分一致検索を行います。文字列の照合には，部分的に正規表現を使うことができます。検索結果の「キー」欄には，検索式と一致した短単位(出現形)全体が表示されます。
- 検索例
-- 検索例3a：短単位の出現形に「日」を含む場合にマッチします。
-- 検索例3b：短単位の出現形が「日」の場合にマッチします。

|&ref(./short_simple.png,80%);|&ref(./short_em.png,80%);|
|検索例3a|検索例3b|h


*** 品詞(短単位) [#f4763d92]
- 短単位の品詞をキーとして部分一致検索します。文字列の照合には，部分的に正規表現を使うことができます。検索結果の「キー」欄には，検索式と一致した短単位(出現形)全体が表示されます。
- 検索例
-- 検索例4a：短単位の品詞が「名詞」を含む場合にマッチします（「名詞-普通名詞-xx」などには，２回マッチします。また。「代名詞」にもマッチします）。
-- 検索例4b：短単位の品詞が「名詞-数詞」の場合にマッチします。

|&ref(./pos_simple.png,80%);|&ref(./pos_em.png,80%);|
|検索例4a|検索例4b|h


*** 語彙素(短単位) [#w63964c8]
- 短単位の語彙素をキーとして部分一致検索します。文字列の照合には，部分的に正規表現を使うことができます。
- 検索例
-- 検索例5a：短単位の語彙素に「食べる」を含む場合にマッチします。
-- 検索例5b：短単位の語彙素の先頭が「日」の場合にマッチします。
-- 検索例5c：短単位の語彙素が「日」の場合にマッチします。

|&ref(./lem_simple.png,80%);|&ref(./lem_head.png,80%);|&ref(./lem_em.png,80%);|
|検索例5a|検索例5b|検索例5c|h


*** 語彙素読み(短単位) [#v2f073e2]
- 短単位の語彙素の読み（カタカナ）をキーとして部分一致検索します。文字列の照合には，部分的に正規表現を使うことができます。
- 検索例
-- 検索例6a：短単位の語彙素の読みに「ノム」を含む場合にマッチします。
-- 検索例6b：短単位の語彙素の読みが「ノム」の場合にマッチします。

|&ref(./read_simple.png,80%);|&ref(./read_em.png,80%);|
|検索例6a|検索例6b|h


** 4.3 検索結果 [#u362bed2]

検索結果には，次の情報が含まれます。


|~列名|~備考|
||450|c
|前文脈|検索文字列の前文脈|
|キー|検索文字列|
|後文脈|検索文字列の後文脈|
|データ名|検索文字列を含む会話データの名前（原資料のファイル名と対応）|
|話者|検索文字列を包含する発話の話者|
|話者性別|話者の性別|
|話者年齢|話者の年齢|
|話者出身地|話者の出身地|
|話者居住地|話者の居住地|
|話者情報|話者に関するその他の情報|
|品詞|当該キー（先頭文字を包含する短単位の）の品詞|
|活用型|当該キー（先頭文字を包含する短単位の）の活用型|
|活用形|当該キー（先頭文字を包含する短単位の）の活用形|
|語彙素|当該キー（先頭文字を包含する短単位の）の語彙素|
|読み|当該キー（先頭文字を包含する短単位の）の語彙素の読み|
|出現形（タグ付き）|当該キー（先頭文字を包含する短単位の）のタグ付きの出現形|
|語彙素-2|当該キー（先頭文字を包含する短単位の）の二つ前に前出する短単位の語彙素|
|語彙素-1|当該キー（先頭文字を包含する短単位の）の一つ前に前出する短単位の語彙素|
|語彙素1|当該キー（先頭文字を包含する短単位の）の一つ後に後続する短単位の語彙素|
|語彙素2|当該キー（先頭文字を包含する短単位の）の二つ後に後続する短単位の語彙素|
|全話者|当該の会話に参加しているすべての話者（「,」で区切られる）|
|収録時間|当該の会話の収録時間|
|収録年月日|当該の会話の収録年月日|
|収録場所|当該の会話の収録場所|
|話者関係|当該の会話の話者間の関係|
|補足情報|当該の会話の補足情報|
|短単位数|当該の会話データに含まれる総短単位数|
|相づち|キーが挿入要素（相づちなど）の一部の場合１，そうでない場合０|

** 4.4 会話データ全体の閲覧 [#lfc9a9fd]
　検索結果をダブルクリックすると，当該のキーを含んだ会話データ全体を閲覧することができます。
- 当該のキーは，赤色で表示されます。
- 縦棒(｜)は，短単位の区切りを表します。
- 個々の短単位にマウスカーソルを合わせると，短単位の各種属性が表示されます。


#br
#ref(./browse.png,wrap,90%)
#br

** 4.4 会話データ一覧 [#k141a03c]
　会話データの一覧を作成するには，[ツール]⇒[一覧]⇒[データ名]を実行して下さい。各会話データに付与されている情報を閲覧することができます。ダブルクリックすると，当該の会話の転記テキストが表示されます。

#br
#ref(./datalist.png,wrap,80%)
#br

*アンケート [#qdcc0fb3]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UN1I4VjhaQlZHUkNHNlY1WjBJWjc1M1gzTC4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe>
</div>
}}
全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ の変更点

全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージの変更点