[PukiWiki]

全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ

Top/全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2023-03-24更新(2016-10-12作成)
 

1.パッケージの概要†

  • 本パッケージは,『名大会話コーパス』を『ひまわり』用にインポートしたデータです。インポート時には,形態素解析結果(短単位),話者・会話情報などを取り込んでいます。
  • 本パッケージの作成は,国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」 の一環として行われました。
↑

2.収録データの内容†

  • 原資料:『名大会話コーパス』のテキストデータ
  • 原資料からの変更点
    • 原資料の発話部分には,基本的に変更を加えていません。ただし,検索の利便性を考慮し,以下のような処理を行っています。
      • 主として,形式上の誤りの修正を行っています。詳細は,「テキスト整形と形態素解析」を参照してください。
      • 発話冒頭の発話者名は,全文検索対象から除外し,発話の属性として記述しています。また,原資料には相づちの話者情報が表示されていませんが,話者が特定できる場合(会話参加者が二人の場合)にはその発話者IDを,特定できない場合(会話参加者が三人以上の場合)には"unknown"という情報を記述しています。
      • 相づちなどの挿入要素は,包含する発話から独立させ,本来の発話場所とは異なる位置に記述しています。そのため,『ひまわり』の検索結果の前後文脈欄では,挿入句が本来と異なる位置に表示される場合があります。
      • <笑い>など,原資料に付与されている独自タグは,全文検索対象から除外し,付属情報として記述しています。
    • 機械的に形態素解析を行い,一部手修正を行った後,結果をタグ付けしています。
      • 詳細は,「テキスト整形と形態素解析」を参照してください。
      • 発話の末尾には,発話区切り用の形態素(長さ0,品詞「himawari_発話末」の形態素)が挿入されています。(2018-08-22追記)
    • 原資料の各データファイルは,パッケージ化する際に,連結しています。そのため,データファイルの先頭,もしくは,末尾の文字列を検索すると,その前後文脈として,別のデータファイルの文字列が表示される場合があります。
↑

3.パッケージのダウンロード†

  • 『名大会話コーパス』パッケージ(2023-03-24,約93MB, 履歴)
  • 本パッケージの使用条件
    • 『名大会話コーパス』パッケージは,クリエイティブ・コモンズ 表示-非営利-改変禁止 4.0 国際 ライセンスで公開します。
      • 『名大会話コーパス』は,科学研究費基盤研究(B)(2)「日本語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」 (平成13年度〜15年度 研究代表者 大曽美恵子)の一環として作成されました。
      • 本パッケージの作成は,国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」 の一環として行われました。
    • 本パッケージを利用したことにより直接的,間接的に生じる,いかなる損害も保証しません。
↑

4.利用方法†

↑

4.1 インストール†

(ビデオも用意しました。『ひまわり』自体の使い方は,ビデオチュートリアル一覧を参照してください)

  1. 『ひまわり』 (ver.1.7以降を推奨)をインストールしてください。
  2. パッケージをダウンロードしてください。
  3. 『ひまわり』を起動し,ダウンロードした zip ファイルを(起動した)『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい(「インポート」ではありません)。
  4. 「インストールが終了しました」というメッセージが出れば,インストールは完了です。すぐに検索できる状態になります。
  5. 次回以降は,[ファイル]⇒[コーパス選択]から選択できます。
↑

4.2 検索対象の詳細†

(単語検索については,ビデオ[part1,part2]も用意しました)

 ここでは,『名大会話コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルをご覧ください。

検索対象

 本パッケージでは,次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

↑

全文†

  • 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位に関する情報は,検索文字列の先頭の文字列を規準にしています。
  • 検索例
    • 検索例1a:「日常」で全文検索します。
    • 検索例1b:「日常」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
検索例1a検索例1b
full_text_simple.pngfull_text_fc.png
↑

全文(正規表現,短単位),全文(正規表現,発話)†

  • 短単位(出現形),発話(原資料の1行に相当)の範囲内で,正規表現検索します。検索結果の「キー」欄には,検索式と一致した部分のみが表示されます。インデックスを用いないため,「全文」「出現形(短単位)」よりも検索速度は低下します。
  • 検索例
    • 検索例2a:短単位に「日」を含む場合にマッチします。
    • 検索例2b:短単位の先頭が「日」の場合にマッチします(正規表現「^日」)。
    • 検索例2c:短単位の「日」を含む場合にマッチします(正規表現「^.*日.*」)。2aと異なり,「キー」欄には,短単位全体が表示されます。
検索例2a検索例2b検索例2c
full_text_reg_simple.pngfull_text_reg_head.pngfull_text_reg_incl.png
↑

出現形(短単位)†

  • 短単位の出現形をキーとして,部分一致検索を行います。文字列の照合には,部分的に正規表現を使うことができます。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。
  • 検索例
    • 検索例3a:短単位の出現形に「日」を含む場合にマッチします。
    • 検索例3b:短単位の出現形が「日」の場合にマッチします。
検索例3a検索例3b
short_simple.pngshort_em.png
↑

品詞(短単位)†

  • 短単位の品詞をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。
  • 検索例
    • 検索例4a:短単位の品詞が「名詞」を含む場合にマッチします(「名詞-普通名詞-xx」などには,2回マッチします。また。「代名詞」にもマッチします)。
    • 検索例4b:短単位の品詞が「名詞-数詞」の場合にマッチします。
検索例4a検索例4b
pos_simple.pngpos_em.png
↑

語彙素(短単位)†

  • 短単位の語彙素をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例5a:短単位の語彙素に「食べる」を含む場合にマッチします。
    • 検索例5b:短単位の語彙素の先頭が「日」の場合にマッチします。
    • 検索例5c:短単位の語彙素が「日」の場合にマッチします。
検索例5a検索例5b検索例5c
lem_simple.pnglem_head.pnglem_em.png
↑

語彙素読み(短単位)†

  • 短単位の語彙素の読み(カタカナ)をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例6a:短単位の語彙素の読みに「ノム」を含む場合にマッチします。
    • 検索例6b:短単位の語彙素の読みが「ノム」の場合にマッチします。
検索例6a検索例6b
read_simple.pngread_em.png
↑

4.3 検索結果†

検索結果には,次の情報が含まれます。

列名備考
前文脈検索文字列の前文脈
キー検索文字列
後文脈検索文字列の後文脈
データ名検索文字列を含む会話データの名前(原資料のファイル名と対応)
話者検索文字列を包含する発話の話者
話者性別話者の性別
話者年齢話者の年齢
話者出身地話者の出身地
話者居住地話者の居住地
話者情報話者に関するその他の情報
品詞当該キー(先頭文字を包含する短単位の)の品詞
活用型当該キー(先頭文字を包含する短単位の)の活用型
活用形当該キー(先頭文字を包含する短単位の)の活用形
語彙素当該キー(先頭文字を包含する短単位の)の語彙素
読み当該キー(先頭文字を包含する短単位の)の語彙素の読み
出現形(タグ付き)当該キー(先頭文字を包含する短単位の)のタグ付きの出現形
語彙素-2当該キー(先頭文字を包含する短単位の)の二つ前に前出する短単位の語彙素
語彙素-1当該キー(先頭文字を包含する短単位の)の一つ前に前出する短単位の語彙素
語彙素1当該キー(先頭文字を包含する短単位の)の一つ後に後続する短単位の語彙素
語彙素2当該キー(先頭文字を包含する短単位の)の二つ後に後続する短単位の語彙素
全話者当該の会話に参加しているすべての話者(「,」で区切られる)
収録時間当該の会話の収録時間
収録年月日当該の会話の収録年月日
収録場所当該の会話の収録場所
話者関係当該の会話の話者間の関係
補足情報当該の会話の補足情報
短単位数当該の会話データに含まれる総短単位数
相づちキーが挿入要素(相づちなど)の一部の場合1,そうでない場合0
↑

4.4 会話データ全体の閲覧†

 検索結果をダブルクリックすると,当該のキーを含んだ会話データ全体を閲覧することができます。

  • 当該のキーは,赤色で表示されます。
  • 縦棒(|)は,短単位の区切りを表します。
  • 個々の短単位にマウスカーソルを合わせると,短単位の各種属性が表示されます。
 
browse.png
 
↑

4.4 会話データ一覧†

 会話データの一覧を作成するには,[ツール]⇒[一覧]⇒[データ名]を実行して下さい。各会話データに付与されている情報を閲覧することができます。ダブルクリックすると,当該の会話の転記テキストが表示されます。

 
datalist.png
 
↑

アンケート†

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-06-17
    • 観察支援ツール FishWatchr
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS

total:19000
today:4
yesterday:5

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-03-24 (金) 23:58:40