[PukiWiki]

全文検索システム『ひまわり』/『昭和話し言葉コーパス』_old

Top/全文検索システム『ひまわり』/『昭和話し言葉コーパス』_old

全文検索システム『ひまわり』

 

本ページの内容は,古くなっています。最新情報は,全文検索システム『ひまわり』/『昭和話し言葉コーパス』を参照してください。

 
 
作成者:山口昌也 (国立国語研究所)
2019-05-09
 

目次

  • 1.はじめに
  • 2.動作環境
  • 3.準備
    • 3.1 使用機器の準備
    • 3.2 『ひまわり』の起動の確認
    • 3.3 検索できることの確認
  • 4.転記テキストの検索:『ひまわり』
    • 4.1 検索結果
    • 4.2 検索対象の詳細
      • 全文,全文(正規表現)
      • 話者ID
    • 4.3 データの閲覧
    • 4.3.1 ファイルデータベースの閲覧
    • 4.3.2 話者データベースの閲覧
    • 4.3.3 音声ファイルの再生
    • 4.3.4 転記テキストの閲覧
  • 5.トラブルシューティング
  • 6.お問い合わせ
  • 謝辞
 

1.はじめに†

 『昭和話し言葉コーパス』のモニター公開データ(以後,SSC)の配布DVDには,全文検索システム『ひまわり』を用いた検索環境が同梱されています(入手方法)。このページでは,SSCパッケージの利用方法を説明します。特徴は,次のとおりです。

  • 全転記テキストの全文検索
  • 検索結果からの転記テキスト全体の表示
  • 検索結果からの音声ファイルの再生(VLCを利用)
  • SSCに同梱されるメタデータ(講演情報,話者情報)の閲覧

 なお,SSCパッケージは,配布DVDに同梱される転記テキスト,メタデータを『ひまわり』にインポートする形で構築しています。

↑

2.動作環境†

 SSCパッケージは,次の環境で動作します。

  • Windows (Windows7以降)
  • macOS (Webブラウザは,ChromeもしくはFirefoxを推奨)
  • その他(Java および VLCが動作する環境)
↑

3.準備†

↑

3.1 使用機器の準備†

  1. 配布DVDの内容を,PCのハードディスクにコピーしてください。
    • コピー時には,フォルダの構成は変更しないで下さい。
  2. Windows,macOSを利用している場合は,以上で終了です。
  3. Windows,macOS以外のOSを利用している場合,Java,VLCが動作する環境では,SSCパッケージも動作する可能性があります。
    • 各自の環境に合わせて,JavaとVLCをインストールして下さい。参考のため,配布サイトの例を示します。
      • Java (AdoptOpenJDK)
      • VLC (VideoLAN Organization)
    • なお,Android,iOSでは,動作しません。
↑

3.2 『ひまわり』の起動の確認†

  1. PCにコピーした「Himawari_Showa」フォルダを開いて下さい。
  2. 『ひまわり』を実行
    • Windowsの場合: himawari.exe をダブルクリックして下さい。
       
      himawari_showa_folder_win.png
       
    • macOSの場合: Himawari をダブルクリックして下さい。
       
      himawari_showa_folder_mac.png
       
    • その他の場合
      1. シェルを起動し,カレントディレクトリを「Himawari_Showa」フォルダにして下さい。
      2. 次のコマンドを実行して下さい。
         % java -jar himawari.jar
↑

3.3 検索できることの確認†

 『ひまわり』が起動したら,検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。次の例は,「言葉」を検索した結果です。

 
himawari_search_test.png
 
↑

4.転記テキストの検索:『ひまわり』†

↑

4.1 検索結果†

 検索結果の各列の説明は,次のとおりです。SSCのマニュアルもあわせて,参照して下さい。

列名備考
前文脈キーの前文脈
キー検索文字列
後文脈キーの後文脈
ファイルIDキーが出現したファイルのID
話者IDキーの発話者のID
話者当該発話の話者情報
性別
年齢
出身地
タイプ当該ファイルの情報
タイトル
収録日
開始時刻当該発話の開始時刻
終了時刻当該発話の終了時刻
↑

4.2 検索対象の詳細†

検索対象

 検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの4.1 節もあわせてご覧ください。

↑

全文,全文(正規表現)†

  • 転記テキストを全文検索します。ただし,複数の発話(発話単位)をまたいだ検索はできません。
  • 検索結果の「キー」欄には,マッチした文字列が表示されます。
  • 全文(正規表現)では,検索文字列に正規表現が利用できますが,通常の全文検索よりも低速です。
↑

話者ID†

  • 指定した話者IDにマッチ(部分一致)します。
  • 検索結果の「キー」欄には,マッチした話者IDの1発話が表示されます。
↑

4.3 データの閲覧†

↑

4.3.1 ファイルデータベースの閲覧†

  • 検索結果の「ファイルID」列の値をダブルクリックすることにより,当該行のファイルの情報をファイルデータベースから検索し,表示します。
     
    himawari_file_db.png
     
  • すべてのファイルのデータを表示するには,[ツール]⇒[一覧]⇒ファイルDBを実行して下さい。
↑

4.3.2 話者データベースの閲覧†

  • 検索結果の「話者ID」列の値をダブルクリックすることにより,当該行の話者の情報を話者データベースから検索し,表示します。
     
    himawari_speaker_db.png
     
  • すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話者DBを実行して下さい。
↑

4.3.3 音声ファイルの再生†

  • 検索結果の「話者」「性別」列もしくは「年齢」列の値をダブルクリックすることにより,当該行から始まる音声を,VLCで再生することができます。
  • Windows,macOSの場合,パッケージに同梱されているVLCが使用されます。
↑

4.3.4 転記テキストの閲覧†

 検索結果(「ファイルID」「話者ID」「話者」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • 検索文字列は,赤色で表示されます。
  • 転記テキスト中で使用されているタグは,次のように表示されます。
     
    タグ名表示方法
    読みタグ付けされたテキストにルビとして表示
    転訛タグ付けされたテキストにルビ(括弧つき)として表示
    他話者,引用タグ付けされたテキスト強調表示(ボールド)
    咳,笑,板書タグを青色で表示
    録音途切れ,録音途切れ
    他音声混入,ノイズ混入
    講演開始までのやり取り(転記なし)
    F, D, Mタグ付けされたテキストをそのまま表示
     
  • ブラウザは,[オプション]⇒[ブラウザ]で選択することができます。
    • なお,macOSではセキュリティ上,デフォルトの設定ではSafariは利用できません。FirefoxもしくはChromeをインストールするか,対処方法を参照して下さい。
 
himawari_browse_transcript.png
 
↑

5.トラブルシューティング†

  • Windows 環境において,メモリ不足関連のエラー(システムエラー(Java heap space)など)がでます。
    • 『ひまわり』FAQの「64bit版のJavaを利用する」を参照して下さい。
  • Windows 環境において,文字が小さすぎます。
    • 『ひまわり』FAQの「『ひまわり』に表示される文字が小さすぎます」を参照して下さい。
↑

6.お問い合わせ†

  • SSC本体に関するお問合わせは,showa_corpus [at] ninjal.ac.jp ( [at] は @ に変換してください) にお願いします。
  • 『ひまわり』もしくは本パッケージに関するお問い合わせは,himawari_mail_ninjal.pngにお願いします。ただし,お問い合わせ前には,必ず,『ひまわり』利用者マニュアル,『ひまわり』FAQを確認して下さい。
↑

謝辞†

 本研究は,国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」の一環として行われました。

 全文検索システム『ひまわり』の作成にあたっては,次のJSPS科研費の助成を受けています。

  • 「昭和話し言葉コーパス」の構築による話し言葉の経年変化に関する実証的研究」(16H03426)

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-07-04
    • 全文検索システム『ひまわり』/履歴
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴

total:2354
today:2
yesterday:0

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-02-06 (日) 15:23:03