#author("2022-11-09T15:50:36+09:00","default:rd","rd") #author("2023-03-24T23:58:40+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] //#br //&color(red){&size(20){本ページは,現在構築中です。};}; //#br //#br RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2020-04-10更新(2016-10-12作成) RIGHT:2023-03-24更新(2016-10-12作成) #br *1.パッケージの概要 [#s154b64b] - 本パッケージは,[[『名大会話コーパス』:https://mmsrv.ninjal.ac.jp/nucc/]]を『ひまわり』用にインポートしたデータです。インポート時には,形態素解析結果(短単位),話者・会話情報などを取り込んでいます。 - 本パッケージの作成は,国立国語研究所共同研究プロジェクト[[「大規模日常会話コーパスに基づく話し言葉の多角的研究」>https://www2.ninjal.ac.jp/conversation/]] の[[一環>https://www2.ninjal.ac.jp/conversation/nuc.html]]として行われました。 * 2.収録データの内容 [#z9aa0bc5] - 原資料:[[『名大会話コーパス』のテキストデータ:https://mmsrv.ninjal.ac.jp/nucc/nucc.zip]] - 原資料からの変更点 -- 原資料の発話部分には,基本的に変更を加えていません。ただし,検索の利便性を考慮し,以下のような処理を行っています。 --- 主として,形式上の誤りの修正を行っています。詳細は,「[[テキスト整形と形態素解析>./テキスト整形と形態素解析]]」を参照してください。 --- 発話冒頭の発話者名は,全文検索対象から除外し,発話の属性として記述しています。また,原資料には相づちの話者情報が表示されていませんが,話者が特定できる場合(会話参加者が二人の場合)にはその発話者IDを,特定できない場合(会話参加者が三人以上の場合)には"unknown"という情報を記述しています。 --- 相づちなどの挿入要素は,包含する発話から独立させ,本来の発話場所とは異なる位置に記述しています。そのため,『ひまわり』の検索結果の前後文脈欄では,挿入句が本来と異なる位置に表示される場合があります。 --- <笑い>など,原資料に付与されている独自タグは,全文検索対象から除外し,付属情報として記述しています。 -- 機械的に形態素解析を行い,一部手修正を行った後,結果をタグ付けしています。 --- 詳細は,「[[テキスト整形と形態素解析>./テキスト整形と形態素解析]]」を参照してください。 --- 発話の末尾には,発話区切り用の形態素(長さ0,品詞「himawari_発話末」の形態素)が挿入されています。(2018-08-22追記) -- 原資料の各データファイルは,パッケージ化する際に,連結しています。そのため,データファイルの先頭,もしくは,末尾の文字列を検索すると,その前後文脈として,別のデータファイルの文字列が表示される場合があります。 * 3.パッケージのダウンロード [#b1b46d21] - [[『名大会話コーパス』パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/himawari_meidai_20200410.zip]](2020-04-10,約93MB, [[履歴>./履歴]]) - [[『名大会話コーパス』パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/himawari_meidai_20230324.zip]](2023-03-24,約93MB, [[履歴>./履歴]]) - 本パッケージの使用条件 -- 『名大会話コーパス』パッケージは,[[クリエイティブ・コモンズ 表示-非営利-改変禁止 4.0 国際 ライセンス>https://creativecommons.org/licenses/by-nc-nd/4.0/deed.ja]]で公開します。 --- 『名大会話コーパス』は,科学研究費基盤研究(B)(2)「日本語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」 (平成13年度〜15年度 研究代表者 大曽美恵子)の一環として作成されました。 --- 本パッケージの作成は,国立国語研究所共同研究プロジェクト[[「大規模日常会話コーパスに基づく話し言葉の多角的研究」>https://www2.ninjal.ac.jp/conversation/]] の[[一環>https://www2.ninjal.ac.jp/conversation/nuc.html]]として行われました。 //-- 本パッケージの複製,改変は,個人の利用の範囲内で行なうことが可能です。ただし,再配布は禁止いたします。 -- 本パッケージを利用したことにより直接的,間接的に生じる,いかなる損害も保証しません。 //-- 原資料の著作権は,###氏にあります。 * 4.利用方法 [#kbe9551c] ** 4.1 インストール [#o4cc977a] ([[ビデオ>https://youtu.be/FP09uddp1wo]]も用意しました。『ひまわり』自体の使い方は,[[ビデオチュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]を参照してください) + [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.7以降を推奨)をインストールしてください。 //([[インストール方法>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%CD%F8%CD%D1%BC%D4%A5%DE%A5%CB%A5%E5%A5%A2%A5%EB%2F1_5%2F%A3%B2%A1%A5%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB]])。 + パッケージをダウンロードしてください。 + 『ひまわり』を起動し,ダウンロードした zip ファイルを(起動した)『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい(&color(red){「インポート」ではありません};)。 + 「インストールが終了しました」というメッセージが出れば,インストールは完了です。すぐに検索できる状態になります。 + 次回以降は,[ファイル]⇒[コーパス選択]から選択できます。 ** 4.2 検索対象の詳細 [#m83f935a] (単語検索については,ビデオ[[[part1>https://youtu.be/KPDRHIf9NMs]],[[part2>https://youtu.be/s6DOh2KTRoQ]]]も用意しました) ここでは,『名大会話コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。 #ref(./search_target.png,left,around,80%,検索対象); 本パッケージでは,次の項目を対象として,検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_5/4.詳細な検索を行う]]もあわせてご覧ください。 #clear *** 全文 [#f9ab4522] - 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位に関する情報は,検索文字列の先頭の文字列を規準にしています。 - 検索例 -- 検索例1a:「日常」で全文検索します。 -- 検索例1b:「日常」で全文検索し,その後文脈が「の」で始まる場合にマッチします。 |&ref(./full_text_simple.png,wrap,80%);|&ref(./full_text_fc.png,wrap,80%);| |検索例1a|検索例1b|h *** 全文(正規表現,短単位),全文(正規表現,発話) [#ldd2d929] -短単位(出現形),発話(原資料の1行に相当)の範囲内で,正規表現検索します。検索結果の「キー」欄には,検索式と一致した部分のみが表示されます。インデックスを用いないため,「全文」「出現形(短単位)」よりも検索速度は低下します。 - 検索例 -- 検索例2a:短単位に「日」を含む場合にマッチします。 -- 検索例2b:短単位の先頭が「日」の場合にマッチします(正規表現「^日」)。 -- 検索例2c:短単位の「日」を含む場合にマッチします(正規表現「^.*日.*」)。2aと異なり,「キー」欄には,短単位全体が表示されます。 |&ref(./full_text_reg_simple.png,80%);|&ref(./full_text_reg_head.png,80%);|&ref(./full_text_reg_incl.png,80%);| |検索例2a|検索例2b|検索例2c|h *** 出現形(短単位) [#p60dfcda] - 短単位の出現形をキーとして,部分一致検索を行います。文字列の照合には,部分的に正規表現を使うことができます。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。 - 検索例 -- 検索例3a:短単位の出現形に「日」を含む場合にマッチします。 -- 検索例3b:短単位の出現形が「日」の場合にマッチします。 |&ref(./short_simple.png,80%);|&ref(./short_em.png,80%);| |検索例3a|検索例3b|h *** 品詞(短単位) [#f4763d92] - 短単位の品詞をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。 - 検索例 -- 検索例4a:短単位の品詞が「名詞」を含む場合にマッチします(「名詞-普通名詞-xx」などには,2回マッチします。また。「代名詞」にもマッチします)。 -- 検索例4b:短単位の品詞が「名詞-数詞」の場合にマッチします。 |&ref(./pos_simple.png,80%);|&ref(./pos_em.png,80%);| |検索例4a|検索例4b|h *** 語彙素(短単位) [#w63964c8] - 短単位の語彙素をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。 - 検索例 -- 検索例5a:短単位の語彙素に「食べる」を含む場合にマッチします。 -- 検索例5b:短単位の語彙素の先頭が「日」の場合にマッチします。 -- 検索例5c:短単位の語彙素が「日」の場合にマッチします。 |&ref(./lem_simple.png,80%);|&ref(./lem_head.png,80%);|&ref(./lem_em.png,80%);| |検索例5a|検索例5b|検索例5c|h *** 語彙素読み(短単位) [#v2f073e2] - 短単位の語彙素の読み(カタカナ)をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。 - 検索例 -- 検索例6a:短単位の語彙素の読みに「ノム」を含む場合にマッチします。 -- 検索例6b:短単位の語彙素の読みが「ノム」の場合にマッチします。 |&ref(./read_simple.png,80%);|&ref(./read_em.png,80%);| |検索例6a|検索例6b|h ** 4.3 検索結果 [#u362bed2] 検索結果には,次の情報が含まれます。 |~列名|~備考| ||450|c |前文脈|検索文字列の前文脈| |キー|検索文字列| |後文脈|検索文字列の後文脈| |データ名|検索文字列を含む会話データの名前(原資料のファイル名と対応)| |話者|検索文字列を包含する発話の話者| |話者性別|話者の性別| |話者年齢|話者の年齢| |話者出身地|話者の出身地| |話者居住地|話者の居住地| |話者情報|話者に関するその他の情報| |品詞|当該キー(先頭文字を包含する短単位の)の品詞| |活用型|当該キー(先頭文字を包含する短単位の)の活用型| |活用形|当該キー(先頭文字を包含する短単位の)の活用形| |語彙素|当該キー(先頭文字を包含する短単位の)の語彙素| |読み|当該キー(先頭文字を包含する短単位の)の語彙素の読み| |出現形(タグ付き)|当該キー(先頭文字を包含する短単位の)のタグ付きの出現形| |語彙素-2|当該キー(先頭文字を包含する短単位の)の二つ前に前出する短単位の語彙素| |語彙素-1|当該キー(先頭文字を包含する短単位の)の一つ前に前出する短単位の語彙素| |語彙素1|当該キー(先頭文字を包含する短単位の)の一つ後に後続する短単位の語彙素| |語彙素2|当該キー(先頭文字を包含する短単位の)の二つ後に後続する短単位の語彙素| |全話者|当該の会話に参加しているすべての話者(「,」で区切られる)| |収録時間|当該の会話の収録時間| |収録年月日|当該の会話の収録年月日| |収録場所|当該の会話の収録場所| |話者関係|当該の会話の話者間の関係| |補足情報|当該の会話の補足情報| |短単位数|当該の会話データに含まれる総短単位数| |相づち|キーが挿入要素(相づちなど)の一部の場合1,そうでない場合0| ** 4.4 会話データ全体の閲覧 [#lfc9a9fd] 検索結果をダブルクリックすると,当該のキーを含んだ会話データ全体を閲覧することができます。 - 当該のキーは,赤色で表示されます。 - 縦棒(|)は,短単位の区切りを表します。 - 個々の短単位にマウスカーソルを合わせると,短単位の各種属性が表示されます。 #br #ref(./browse.png,wrap,90%) #br ** 4.4 会話データ一覧 [#k141a03c] 会話データの一覧を作成するには,[ツール]⇒[一覧]⇒[データ名]を実行して下さい。各会話データに付与されている情報を閲覧することができます。ダブルクリックすると,当該の会話の転記テキストが表示されます。 #br #ref(./datalist.png,wrap,80%) #br *アンケート [#qdcc0fb3] #html{{ <div style="text-align:center"> <iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UN1I4VjhaQlZHUkNHNlY1WjBJWjc1M1gzTC4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe> </div> }}