全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
//#br
//&color(red){&size(20){本ページは,現在構築中です。};};
//#br
//#br
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2023-03-24更新(2016-10-12作成)
#br
*1.パッケージの概要 [#s154b64b]
- 本パッケージは,[[『名大会話コーパス』:https://mmsrv.ni...
- 本パッケージの作成は,国立国語研究所共同研究プロジェク...
* 2.収録データの内容 [#z9aa0bc5]
- 原資料:[[『名大会話コーパス』のテキストデータ:https://...
- 原資料からの変更点
-- 原資料の発話部分には,基本的に変更を加えていません。た...
--- 主として,形式上の誤りの修正を行っています。詳細は,...
--- 発話冒頭の発話者名は,全文検索対象から除外し,発話の...
--- 相づちなどの挿入要素は,包含する発話から独立させ,本...
--- <笑い>など,原資料に付与されている独自タグは,全文...
-- 機械的に形態素解析を行い,一部手修正を行った後,結果を...
--- 詳細は,「[[テキスト整形と形態素解析>./テキスト整形と...
--- 発話の末尾には,発話区切り用の形態素(長さ0,品詞「h...
-- 原資料の各データファイルは,パッケージ化する際に,連結...
* 3.パッケージのダウンロード [#b1b46d21]
- [[『名大会話コーパス』パッケージ>https://csd.ninjal.ac....
- 本パッケージの使用条件
-- 『名大会話コーパス』パッケージは,[[クリエイティブ・コ...
--- 『名大会話コーパス』は,科学研究費基盤研究(B)(2)「日...
--- 本パッケージの作成は,国立国語研究所共同研究プロジェ...
//-- 本パッケージの複製,改変は,個人の利用の範囲内で行な...
-- 本パッケージを利用したことにより直接的,間接的に生じる...
//-- 原資料の著作権は,###氏にあります。
* 4.利用方法 [#kbe9551c]
** 4.1 インストール [#o4cc977a]
([[ビデオ>https://youtu.be/FP09uddp1wo]]も用意しました。...
+ [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.7...
//([[インストール方法>http://www2.ninjal.ac.jp/lrc/index....
+ パッケージをダウンロードしてください。
+ 『ひまわり』を起動し,ダウンロードした zip ファイルを(...
+ 「インストールが終了しました」というメッセージが出れば...
+ 次回以降は,[ファイル]⇒[コーパス選択]から選択できます。
** 4.2 検索対象の詳細 [#m83f935a]
(単語検索については,ビデオ[[[part1>https://youtu.be/KPD...
ここでは,『名大会話コーパス』データに固有の事柄につい...
#ref(./search_target.png,left,around,80%,検索対象);
本パッケージでは,次の項目を対象として,検索することが...
#clear
*** 全文 [#f9ab4522]
- 形態論情報を考慮せずに,全文検索します。なお,検索結果...
- 検索例
-- 検索例1a:「日常」で全文検索します。
-- 検索例1b:「日常」で全文検索し,その後文脈が「の」で始...
|&ref(./full_text_simple.png,wrap,80%);|&ref(./full_text_...
|検索例1a|検索例1b|h
*** 全文(正規表現,短単位),全文(正規表現,発話) [#ld...
-短単位(出現形),発話(原資料の1行に相当)の範囲内で,...
- 検索例
-- 検索例2a:短単位に「日」を含む場合にマッチします。
-- 検索例2b:短単位の先頭が「日」の場合にマッチします(正...
-- 検索例2c:短単位の「日」を含む場合にマッチします(正規...
|&ref(./full_text_reg_simple.png,80%);|&ref(./full_text_r...
|検索例2a|検索例2b|検索例2c|h
*** 出現形(短単位) [#p60dfcda]
- 短単位の出現形をキーとして,部分一致検索を行います。文...
- 検索例
-- 検索例3a:短単位の出現形に「日」を含む場合にマッチしま...
-- 検索例3b:短単位の出現形が「日」の場合にマッチします。
|&ref(./short_simple.png,80%);|&ref(./short_em.png,80%);|
|検索例3a|検索例3b|h
*** 品詞(短単位) [#f4763d92]
- 短単位の品詞をキーとして部分一致検索します。文字列の照...
- 検索例
-- 検索例4a:短単位の品詞が「名詞」を含む場合にマッチしま...
-- 検索例4b:短単位の品詞が「名詞-数詞」の場合にマッチし...
|&ref(./pos_simple.png,80%);|&ref(./pos_em.png,80%);|
|検索例4a|検索例4b|h
*** 語彙素(短単位) [#w63964c8]
- 短単位の語彙素をキーとして部分一致検索します。文字列の...
- 検索例
-- 検索例5a:短単位の語彙素に「食べる」を含む場合にマッチ...
-- 検索例5b:短単位の語彙素の先頭が「日」の場合にマッチし...
-- 検索例5c:短単位の語彙素が「日」の場合にマッチします。
|&ref(./lem_simple.png,80%);|&ref(./lem_head.png,80%);|&r...
|検索例5a|検索例5b|検索例5c|h
*** 語彙素読み(短単位) [#v2f073e2]
- 短単位の語彙素の読み(カタカナ)をキーとして部分一致検...
- 検索例
-- 検索例6a:短単位の語彙素の読みに「ノム」を含む場合にマ...
-- 検索例6b:短単位の語彙素の読みが「ノム」の場合にマッチ...
|&ref(./read_simple.png,80%);|&ref(./read_em.png,80%);|
|検索例6a|検索例6b|h
** 4.3 検索結果 [#u362bed2]
検索結果には,次の情報が含まれます。
|~列名|~備考|
||450|c
|前文脈|検索文字列の前文脈|
|キー|検索文字列|
|後文脈|検索文字列の後文脈|
|データ名|検索文字列を含む会話データの名前(原資料のファ...
|話者|検索文字列を包含する発話の話者|
|話者性別|話者の性別|
|話者年齢|話者の年齢|
|話者出身地|話者の出身地|
|話者居住地|話者の居住地|
|話者情報|話者に関するその他の情報|
|品詞|当該キー(先頭文字を包含する短単位の)の品詞|
|活用型|当該キー(先頭文字を包含する短単位の)の活用型|
|活用形|当該キー(先頭文字を包含する短単位の)の活用形|
|語彙素|当該キー(先頭文字を包含する短単位の)の語彙素|
|読み|当該キー(先頭文字を包含する短単位の)の語彙素の読み|
|出現形(タグ付き)|当該キー(先頭文字を包含する短単位の...
|語彙素-2|当該キー(先頭文字を包含する短単位の)の二つ前...
|語彙素-1|当該キー(先頭文字を包含する短単位の)の一つ前...
|語彙素1|当該キー(先頭文字を包含する短単位の)の一つ後に...
|語彙素2|当該キー(先頭文字を包含する短単位の)の二つ後に...
|全話者|当該の会話に参加しているすべての話者(「,」で区切...
|収録時間|当該の会話の収録時間|
|収録年月日|当該の会話の収録年月日|
|収録場所|当該の会話の収録場所|
|話者関係|当該の会話の話者間の関係|
|補足情報|当該の会話の補足情報|
|短単位数|当該の会話データに含まれる総短単位数|
|相づち|キーが挿入要素(相づちなど)の一部の場合1,そう...
** 4.4 会話データ全体の閲覧 [#lfc9a9fd]
検索結果をダブルクリックすると,当該のキーを含んだ会話...
- 当該のキーは,赤色で表示されます。
- 縦棒(|)は,短単位の区切りを表します。
- 個々の短単位にマウスカーソルを合わせると,短単位の各種...
#br
#ref(./browse.png,wrap,90%)
#br
** 4.4 会話データ一覧 [#k141a03c]
会話データの一覧を作成するには,[ツール]⇒[一覧]⇒[データ...
#br
#ref(./datalist.png,wrap,80%)
#br
*アンケート [#qdcc0fb3]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.o...
</div>
}}
終了行:
[[全文検索システム『ひまわり』]]
//#br
//&color(red){&size(20){本ページは,現在構築中です。};};
//#br
//#br
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2023-03-24更新(2016-10-12作成)
#br
*1.パッケージの概要 [#s154b64b]
- 本パッケージは,[[『名大会話コーパス』:https://mmsrv.ni...
- 本パッケージの作成は,国立国語研究所共同研究プロジェク...
* 2.収録データの内容 [#z9aa0bc5]
- 原資料:[[『名大会話コーパス』のテキストデータ:https://...
- 原資料からの変更点
-- 原資料の発話部分には,基本的に変更を加えていません。た...
--- 主として,形式上の誤りの修正を行っています。詳細は,...
--- 発話冒頭の発話者名は,全文検索対象から除外し,発話の...
--- 相づちなどの挿入要素は,包含する発話から独立させ,本...
--- <笑い>など,原資料に付与されている独自タグは,全文...
-- 機械的に形態素解析を行い,一部手修正を行った後,結果を...
--- 詳細は,「[[テキスト整形と形態素解析>./テキスト整形と...
--- 発話の末尾には,発話区切り用の形態素(長さ0,品詞「h...
-- 原資料の各データファイルは,パッケージ化する際に,連結...
* 3.パッケージのダウンロード [#b1b46d21]
- [[『名大会話コーパス』パッケージ>https://csd.ninjal.ac....
- 本パッケージの使用条件
-- 『名大会話コーパス』パッケージは,[[クリエイティブ・コ...
--- 『名大会話コーパス』は,科学研究費基盤研究(B)(2)「日...
--- 本パッケージの作成は,国立国語研究所共同研究プロジェ...
//-- 本パッケージの複製,改変は,個人の利用の範囲内で行な...
-- 本パッケージを利用したことにより直接的,間接的に生じる...
//-- 原資料の著作権は,###氏にあります。
* 4.利用方法 [#kbe9551c]
** 4.1 インストール [#o4cc977a]
([[ビデオ>https://youtu.be/FP09uddp1wo]]も用意しました。...
+ [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.7...
//([[インストール方法>http://www2.ninjal.ac.jp/lrc/index....
+ パッケージをダウンロードしてください。
+ 『ひまわり』を起動し,ダウンロードした zip ファイルを(...
+ 「インストールが終了しました」というメッセージが出れば...
+ 次回以降は,[ファイル]⇒[コーパス選択]から選択できます。
** 4.2 検索対象の詳細 [#m83f935a]
(単語検索については,ビデオ[[[part1>https://youtu.be/KPD...
ここでは,『名大会話コーパス』データに固有の事柄につい...
#ref(./search_target.png,left,around,80%,検索対象);
本パッケージでは,次の項目を対象として,検索することが...
#clear
*** 全文 [#f9ab4522]
- 形態論情報を考慮せずに,全文検索します。なお,検索結果...
- 検索例
-- 検索例1a:「日常」で全文検索します。
-- 検索例1b:「日常」で全文検索し,その後文脈が「の」で始...
|&ref(./full_text_simple.png,wrap,80%);|&ref(./full_text_...
|検索例1a|検索例1b|h
*** 全文(正規表現,短単位),全文(正規表現,発話) [#ld...
-短単位(出現形),発話(原資料の1行に相当)の範囲内で,...
- 検索例
-- 検索例2a:短単位に「日」を含む場合にマッチします。
-- 検索例2b:短単位の先頭が「日」の場合にマッチします(正...
-- 検索例2c:短単位の「日」を含む場合にマッチします(正規...
|&ref(./full_text_reg_simple.png,80%);|&ref(./full_text_r...
|検索例2a|検索例2b|検索例2c|h
*** 出現形(短単位) [#p60dfcda]
- 短単位の出現形をキーとして,部分一致検索を行います。文...
- 検索例
-- 検索例3a:短単位の出現形に「日」を含む場合にマッチしま...
-- 検索例3b:短単位の出現形が「日」の場合にマッチします。
|&ref(./short_simple.png,80%);|&ref(./short_em.png,80%);|
|検索例3a|検索例3b|h
*** 品詞(短単位) [#f4763d92]
- 短単位の品詞をキーとして部分一致検索します。文字列の照...
- 検索例
-- 検索例4a:短単位の品詞が「名詞」を含む場合にマッチしま...
-- 検索例4b:短単位の品詞が「名詞-数詞」の場合にマッチし...
|&ref(./pos_simple.png,80%);|&ref(./pos_em.png,80%);|
|検索例4a|検索例4b|h
*** 語彙素(短単位) [#w63964c8]
- 短単位の語彙素をキーとして部分一致検索します。文字列の...
- 検索例
-- 検索例5a:短単位の語彙素に「食べる」を含む場合にマッチ...
-- 検索例5b:短単位の語彙素の先頭が「日」の場合にマッチし...
-- 検索例5c:短単位の語彙素が「日」の場合にマッチします。
|&ref(./lem_simple.png,80%);|&ref(./lem_head.png,80%);|&r...
|検索例5a|検索例5b|検索例5c|h
*** 語彙素読み(短単位) [#v2f073e2]
- 短単位の語彙素の読み(カタカナ)をキーとして部分一致検...
- 検索例
-- 検索例6a:短単位の語彙素の読みに「ノム」を含む場合にマ...
-- 検索例6b:短単位の語彙素の読みが「ノム」の場合にマッチ...
|&ref(./read_simple.png,80%);|&ref(./read_em.png,80%);|
|検索例6a|検索例6b|h
** 4.3 検索結果 [#u362bed2]
検索結果には,次の情報が含まれます。
|~列名|~備考|
||450|c
|前文脈|検索文字列の前文脈|
|キー|検索文字列|
|後文脈|検索文字列の後文脈|
|データ名|検索文字列を含む会話データの名前(原資料のファ...
|話者|検索文字列を包含する発話の話者|
|話者性別|話者の性別|
|話者年齢|話者の年齢|
|話者出身地|話者の出身地|
|話者居住地|話者の居住地|
|話者情報|話者に関するその他の情報|
|品詞|当該キー(先頭文字を包含する短単位の)の品詞|
|活用型|当該キー(先頭文字を包含する短単位の)の活用型|
|活用形|当該キー(先頭文字を包含する短単位の)の活用形|
|語彙素|当該キー(先頭文字を包含する短単位の)の語彙素|
|読み|当該キー(先頭文字を包含する短単位の)の語彙素の読み|
|出現形(タグ付き)|当該キー(先頭文字を包含する短単位の...
|語彙素-2|当該キー(先頭文字を包含する短単位の)の二つ前...
|語彙素-1|当該キー(先頭文字を包含する短単位の)の一つ前...
|語彙素1|当該キー(先頭文字を包含する短単位の)の一つ後に...
|語彙素2|当該キー(先頭文字を包含する短単位の)の二つ後に...
|全話者|当該の会話に参加しているすべての話者(「,」で区切...
|収録時間|当該の会話の収録時間|
|収録年月日|当該の会話の収録年月日|
|収録場所|当該の会話の収録場所|
|話者関係|当該の会話の話者間の関係|
|補足情報|当該の会話の補足情報|
|短単位数|当該の会話データに含まれる総短単位数|
|相づち|キーが挿入要素(相づちなど)の一部の場合1,そう...
** 4.4 会話データ全体の閲覧 [#lfc9a9fd]
検索結果をダブルクリックすると,当該のキーを含んだ会話...
- 当該のキーは,赤色で表示されます。
- 縦棒(|)は,短単位の区切りを表します。
- 個々の短単位にマウスカーソルを合わせると,短単位の各種...
#br
#ref(./browse.png,wrap,90%)
#br
** 4.4 会話データ一覧 [#k141a03c]
会話データの一覧を作成するには,[ツール]⇒[一覧]⇒[データ...
#br
#ref(./datalist.png,wrap,80%)
#br
*アンケート [#qdcc0fb3]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.o...
</div>
}}
ページ名: