[PukiWiki]

全文検索システム『ひまわり』/『昭和話し言葉コーパス』

Top/全文検索システム『ひまわり』/『昭和話し言葉コーパス』

 
パッケージ作成者:山口昌也 (国立国語研究所)
2021-03-27
 

目次

  • 1.はじめに
  • 2.準備
    • 2.1 インストール
    • 2.2 動作確認
  • 3.転記テキストの検索
    • 3.1 検索結果
    • 3.2 検索対象の詳細
      • 全文,全文(正規表現)
      • 書字形,書字形(タグ付),書字形(正規表現)
      • 語彙素,語彙素読み,品詞
      • 話者ID
    • 3.3 データの閲覧
    • 3.3.1 ファイルデータベースの閲覧
    • 3.3.2 話者データベースの閲覧
    • 3.3.3 音声ファイルの再生
    • 3.3.4 転記テキストの閲覧
  • 4.お問い合わせ
  • 謝辞
 

1.はじめに†

 このページでは,『昭和話し言葉コーパス』 (以後,SSC) の全文検索『ひまわり』用パッケージSSCパッケージの利用方法を説明します。特徴は,次のとおりです。

  • 全転記テキストの全文検索
  • 形態素解析結果(短単位)を利用した検索,形態素解析結果の表示
  • 検索結果からの転記テキスト全体の表示
  • 検索結果からの音声ファイルの再生
  • SSCに同梱されるメタデータ(講演情報,話者情報)の閲覧

 なお,SSCパッケージは,SSCの配布データに含まれる転記テキスト,メタデータを『ひまわり』にインポートする形で構築しています。

himawari_ssc.png
(クリックすると拡大します)
↑

2.準備†

↑

2.1 インストール†

  1. 全文検索システム『ひまわり』(ver.1.7.1以降)をインストールしてください。
  2. SSCパッケージをダウンロードしてください。なお,データの配布は,コーパス開発センターで行っており,ダウンロードには,コーパス検索アプリケーション「中納言」のユーザ登録が必要です。
    • himawari_ssc_20211129.zip (636MB)
  3. ダウンロードしたzipファイルを,起動している『ひまわり』にドラッグ&ドロップしてください。
  4. 動作確認をしてください。
↑

2.2 動作確認†

 パッケージのインストールが終了すると,SSCが検索できる状態になっています。検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。上の図は,「言葉」を検索した結果です。

↑

3.転記テキストの検索†

↑

3.1 検索結果†

 検索結果の各列の説明は,次のとおりです。SSCのマニュアルもあわせて,参照して下さい。

列名備考
前文脈キーの前文脈
キー検索文字列
後文脈キーの後文脈
ファイルIDキーが出現したファイルのID
話者ID当該発話の話者情報
氏名
性別
収録時年齢
生年
出身地
居住地
職業
タイプ当該ファイルの情報
タイトル
録音年月
開始時間当該発話の開始時間
終了時間当該発話の終了時間
品詞キーの先頭文字を含む語(短単位)の情報
活用型
活用形
語種
語彙素
語彙素読み
発音形出現形
発音
書字形
タグ付き書字形
語彙素-2当該語の2語前の語彙素
語彙素-1当該語の1語前の語彙素
語彙素1当該語の1語後の語彙素
語彙素2当該語の2語後の語彙素
Tier当該発話のTextGridデータにおける層
↑

3.2 検索対象の詳細†

検索対象

 検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの4.1 節もあわせてご覧ください。

↑

全文,全文(正規表現)†

  • 転記テキストを全文検索します。ただし,複数の発話(発話単位)をまたいだ検索はできません。
  • 検索結果の「キー」欄には,マッチした文字列が表示されます。
  • 全文(正規表現)では,検索文字列に正規表現が利用できますが,通常の全文検索よりも低速です。
  • 検索例
    • 検索例1a:「国語」で全文検索します。
    • 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
検索例1a検索例1b
himawari_ssc_ex1a.pnghimawari_ssc_ex1b.png
↑

書字形,書字形(タグ付),書字形(正規表現)†

  • 短単位の書字形,タグ付き書字形で検索します。
    • 書字形,書字形(タグ付)の場合
      • 「検索文字列」欄で指定した文字列で部分一致検索します。
      • 検索結果の「キー」欄には,マッチした語(短単位)が表示されます。
      • 「検索文字列」欄では正規表現は利用できませんが,「正規表現(前)」「正規表現(後)」欄と組み合わせて,制限付きの正規表現を使えます。
      • 前後文脈は「フィルタ」タブで指定して下さい。
    • 書字形(正規表現)の場合
      • 「検索文字列」欄で正規表現が使えます。
      • ただし,「書字形」検索よりも低速です。
      • 検索結果の「キー」欄には,マッチした文字列(語ではないことに注意)が表示されます。
         
  • 検索例(「書字形」「書字形(タグ付)」)
    • 検索例2a:書字形に「国」を含む場合にマッチします。
    • 検索例2b:書字形が「国」で始まる場合にマッチします。
    • 検索例2c:書字形が「国」の場合にマッチします。
       
      検索例2a検索例2b検索例2c
      himawari_ssc_ex2a.pnghimawari_ssc_ex2b.pnghimawari_ssc_ex2c.png
       
  • 検索例(「書字形(正規表現)」)
    • 検索例3a:書字形に「国」を含む場合にマッチします。
    • 検索例3b:書字形が「国」で始まる場合にマッチします。
    • 検索例3c:書字形が「国」の場合にマッチします。
       
      検索例3a検索例3b検索例3c
      himawari_ssc_ex3a.pnghimawari_ssc_ex3b.pnghimawari_ssc_ex3c.png
       
↑

語彙素,語彙素読み,品詞†

  • 短単位の語彙素,語彙素読み,品詞で検索します。
  • 検索結果の「キー」欄には,マッチした語が表示されます。
  • 「検索文字列」欄では正規表現は利用できませんが,「正規表現(前)」「正規表現(後)」欄と組み合わせて,制限付きの正規表現を使えます。
  • 前後文脈は,「フィルタ」タブで指定して下さい。
 
  • 検索例
    • 検索例4a:語彙素読みに「コト」を含む場合にマッチします。
    • 検索例4b:語彙素読みが「コト」で終わる場合にマッチします。
    • 検索例4c:語彙素読みが「タベル」の場合にマッチします。
       
      検索例4a検索例4b検索例4c
      himawari_ssc_ex4a.pnghimawari_ssc_ex4b.pnghimawari_ssc_ex4c.png
       
↑

話者ID†

  • 話者IDをキーとして検索します。
  • 検索結果の「キー」欄には,当該の発話IDを持つ発話が検索されます。
  • 文字列の照合には,正規表現(前),正規表現(後)欄で,正規表現を使うことができます。
  • 検索例
    • 検索例5a:話者IDが「C001」を含む場合にマッチします。
    • 検索例5b:話者IDが「C」で始まる場合にマッチします。
       
      検索例5a検索例5b
      himawari_ssc_ex5a.pnghimawari_ssc_ex5b.png
       
↑

3.3 データの閲覧†

↑

3.3.1 ファイルデータベースの閲覧†

  • 検索結果の「ファイルID」列の値をダブルクリックすることにより,当該行のファイルの情報をファイルデータベースから検索し,表示します。
     
    himawari_ssc_file.png
     
  • すべてのファイルのデータを表示するには,[ツール]⇒[一覧]⇒ファイルDBを実行して下さい。
↑

3.3.2 話者データベースの閲覧†

  • 検索結果の「話者ID」列の値をダブルクリックすることにより,当該行の話者の情報を話者データベースから検索し,表示します。
     
    himawari_ssc_speaker.png
     
  • すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話者DBを実行して下さい。
↑

3.3.3 音声ファイルの再生†

  • 検索結果の「話者」「性別」列もしくは「年齢」列の値をダブルクリックすることにより,当該転記単位から始まる音声を再生することができます。
  • デフォルトの再生範囲は,当該転記単位です。その周辺を再生したい場合は,プレイヤーのスライダーを再生したい位置までドラッグするか,再生したい位置をダブルクリックしてください。
 
himawari_ssc_play_soundfile.png
 
↑

3.3.4 転記テキストの閲覧†

 検索結果(「ファイルID」「話者ID」「話者」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • 検索文字列は,赤色で表示されます。
  • 転記テキスト中で使用されているタグは,次のように表示されます。
  • 「/」は,短単位の区切りを表します。
  • 個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
  • ブラウザは,[オプション]⇒[ブラウザ]で選択することができます。
 
himawari_ssc_browse_transcript.png
 
↑

4.お問い合わせ†

  • SSC本体に関するお問合わせは,showa_corpus [at] ninjal.ac.jp ( [at] は @ に変換してください) にお願いします。
  • 『ひまわり』もしくは本パッケージに関するお問い合わせは,himawari_mail_ninjal.pngにお願いします。ただし,お問い合わせ前には,必ず,『ひまわり』利用者マニュアル,『ひまわり』FAQを確認して下さい。
↑

謝辞†

 本研究は,国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」の一環として行われました。

 全文検索システム『ひまわり』の作成にあたっては,次のJSPS科研費の助成を受けています。

  • 「昭和話し言葉コーパス」の構築による話し言葉の経年変化に関する実証的研究」(16H03426)

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS

total:1543
today:1
yesterday:1

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-03-28 (月) 10:32:50