[PukiWiki]

全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法

Top/全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2015-06-01(更新: 2023-10-28)
 
  • 1.はじめに
  • 2.インストール
    • 第9刷以降
      • Windowsの場合
      • macOSの場合(WindowsやLinuxにも適用できます)
    • 第8刷まで
  • 3.使用方法
    • 3.1 準備
    • 3.2 『ひまわり』の起動
      • 第9刷以降
      • 第8刷まで
    • 3.3 サブコーパスの選択
    • 3.4 検索対象の詳細
      • 全文
      • 出現形(短単位),出現形(長単位)
      • 品詞(短単位),品詞(長単位)
      • 代表形(短単位),代表形(長単位)
      • 節境界
    • 3.5 検索結果
    • 3.6 転記テキストの閲覧
    • 3.7 音声データの再生
      • 第9刷
      • 第8刷
      • 第7刷まで(VLC要インストール)

1.はじめに†

 『日本語話し言葉コーパス』(CSJ)は,第4刷から『ひまわり』用CSJパッケージを同梱して,配布されています。本ページでは,『ひまわり』用CSJパッケージの利用方法を説明します。本パッケージの特徴は,次のとおりです。

  • 全転記テキストの全文検索
  • 形態素解析結果(短単位,長単位)を利用した検索,形態素解析結果の表示
  • 検索結果から転記テキスト全体の表示
  • 検索結果から音声データの再生
↑

2.インストール†

↑

第9刷以降†

↑

Windowsの場合†

  1. CSJの USB メモリを用意して下さい。
  2. Tools/Himawariフォルダを開いてください
  3. 「Himawari_CSJ」フォルダを使いやすい場所にコピーしてください。
    • このフォルダの『ひまわり』(ver.1.7.4)には,このあと「macOSの場合」で説明する二つのパッケージがインストール済みです。すぐに転記テキストの検索と音声データの再生が行えます。
    • 約12GB必要です。
    • 最新版の『ひまわり』を使いたい場合は,後述の「macOSの場合」の方法でインストールしてください。
↑

macOSの場合(WindowsやLinuxにも適用できます)†

  1. 『ひまわり』をインストールしてください。
    • ビデオチュートリアル
    • インストールする『ひまわり』アプリの名前は変更せず,デフォルトのまま(Himawari)使用してください(macOSの場合)。
  2. CSJの USB メモリを用意して下さい。
  3. Tools/Himawariフォルダを開いて,次のファイルがあることを確認してください。
    • himawari_csj_trans.zip ...『ひまわり』用CSJパッケージ(転記テキスト)
    • himawari_csj_sound.zip ...『ひまわり』用CSJパッケージ(音声ファイル[ogg形式],転記テキストの検索のみであれば不要)
  4. 『ひまわり』を起動し,上記のCSJパッケージをインストールしてください。
    • 起動している『ひまわり』にパッケージのファイルをドラッグ&ドロップすると,パッケージのインストールが始まります。
    • 上書きの警告が出る場合がありますが,基本的に上書きで問題ありません(注意するのはインストールしたファイルを手動で変更しているときのみです)。
    • 音声ファイルのパッケージは11GB程度あります。可能ならば,配布USBメモリから,PC本体などの高速なディスクにコピーしてからインストールすることをおすすめします。
↑

第8刷まで†

  1. CSJの USB メモリを用意して下さい。
    • macOSの場合の注意: CSJ更新時に,『ひまわり』の差分ファイル(zip形式)を配布サイトからダウンロードした場合は,次のいずれかの対応が必要です(OSのセキュリティ強化のため)。
      • Windowsなど別のOSでzipファイルをダウンロードし,ネットワークを介さないでmacにコピー(USBメモリなど)してからzipファイルを展開
      • もしくは,次のコマンドを実行後に展開
        $ xattr -c ダウンロードしたzipファイル
  2. TOOL フォルダの中にある Himawari フォルダを使いやすい場所にコピーして下さい。
  3. (任意) 音声データの再生機能(3.7節参照)を利用する場合
    1. 次のフォルダに含まれる wav ファイルを,コピーした Himawari フォルダの中の Corpora/CSJ/soundfiles フォルダにコピーして下さい。
      • WAV/core
      • WAV/noncore
    2. VLC media player をインストールして下さい。なお,第8刷では『ひまわり』内蔵プレイヤーも利用できます(その場合,VLCのインストールは不要)。
  4. 以上でインストールは終了です。
↑

3.使用方法†

↑

3.1 準備†

 ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルやビデオチュートリアルをご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。

  • 「形態論情報の概要」
  • 「短単位・長単位データマニュアル」の3.2 節
  • 「節単位認定」
  • 「転記テキスト」
  • 『日本語話し言葉コーパス』の概観
  • 「音声収録作業の概要」
↑

3.2 『ひまわり』の起動†

↑

第9刷以降†

  • Windowsの場合は,コピーした「Himawari_CSJ」フォルダを開いて,『ひまわり』のアイコン(himawari.exe)をダブルクリックしてください。
  • macOSは,インストールした『ひまわり』をダブルクリックしてください。
↑

第8刷まで†

  • マニュアル(2.3節)を参照して,『ひまわり』を起動して下さい。なお,macOSの場合は,コピーした Himawari フォルダ内の Himawari を利用してください。
  • 『ひまわり』を起動すると,すぐに『日本語話し言葉コーパス』が検索対象となります。
↑

3.3 サブコーパスの選択†

 コーパス選択機能を用いて,サブコーパスを選択します。なお,サブコーパス名の略号(例:「A01」)については,『日本語話し言葉コーパス』の概観の「2.8 ファイルの命名」,および,音声収録作業の概要をご覧ください。

↑

3.4 検索対象の詳細†

検索対象

 次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

↑

全文†

  • 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位・長単位に関する情報は,検索文字列の先頭の文字列を内部に含む単位のものです。
  • 検索例
    • 検索例1a:「国語」で全文検索します。
    • 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
       
      検索例1a検索例1b
      full_text_simple.pngfull_text_fc.png
↑

出現形(短単位),出現形(長単位)†

  • 短単位,長単位の出現形で検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例2a:出現形(長単位)に「国語」を含む場合にマッチします。
    • 検索例2b:出現形(長単位)が「国語」の場合にマッチします。
    • 検索例2c:出現形(長単位)が「国語」を含み,その末尾が「所」の場合にマッチします。
       
      検索例2a検索例2b検索例2c
      search_example1.pngsearch_example2.pngsearch_example3.png
↑

品詞(短単位),品詞(長単位)†

  • 品詞をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例3a:出現形(短単位)に「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。
    • 検索例3b:出現形(短単位)が「名詞」の場合にマッチします。
       
      検索例3a検索例3b
      pos_simple.pngpos_pf.png
↑

代表形(短単位),代表形(長単位)†

  • 代表形をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例4a:代表形(長単位)に「タベル」を含む場合にマッチします。
    • 検索例4b:代表形(長単位)が「ゼン」で始まる場合にマッチします。
    • 検索例4c:代表形(長単位)が「ゴ」で終わる場合にマッチします。
       
      検索例4a検索例4b検索例4c
      daihyo_simple.pngdaihyo_p.pngdaihyo_pf.png
↑

節境界†

  • 節境界情報をキーとして検索します。文字列の照合には,正規表現を使うことができます。
  • 当該の節境界情報を持つ短単位が検索されます。
  • 検索例
    • 検索例5a:節境界が「文末」の場合にマッチします。
    • 検索例5b:節境界が「並列節」を含む場合にマッチします。
       
      検索例5a検索例5b
      setu_pf.pngsetu_simple.png
↑

3.5 検索結果†

 検索結果には,次の情報が含まれます。「短単位・長単位データマニュアル」の3.2節も合わせて参照して下さい。

列名備考
前文脈
出現形(検索文字列とマッチした文字列など)
後文脈
代表表記短単位の情報

「活用型」「その他1」〜「その他3」は,短単位・長単位データマニュアル」の「活用の種類」,「その他の情報1」〜「その他の情報3」に対応
代表形
品詞
活用形
活用型
その他1
その他2
その他3
発音形
代表表記(長)長単位の情報
代表形(長)
品詞(長)
活用形(長)
活用型(長)
その他1(長)
その他2(長)
その他3(長)
出現形(後)後続する短単位の情報
代表形(後)
代表表記(後)
品詞(後)
その他1(後)
出現形(前)前接する短単位の情報
代表形(前)
代表表記(前)
品詞(前)
その他1(前)
講演ID当該の転記基本単位の情報
開始時間
終了時間
コア当該の転記テキストがコアに含まれるか否かを表すフラグ
T: 含む場合,F:含まない場合
↑

3.6 転記テキストの閲覧†

 検索結果(「品詞」「活用形」「発音形」欄を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • / : 短単位の区切り
  • | : 長単位の区切り
  • $ : 節境界
  • 検索文字列は,赤色で表示されます。
  • 個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
  • 長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。
  • 節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。
 
csj_manual_sample_browse.png
 
↑

3.7 音声データの再生†

 インストール時に音声データを『ひまわり』にインストールしている場合,検索結果をダブルクリック(下記参照)すると,当該の検索文字列を含んだ転記単位の音声データを再生することができます。

↑

第9刷†

  • 『ひまわり』内蔵プレイヤーの場合
    • 「品詞」もしくは「発音形」欄をダブルクリックしてください。
    • 当該の転記基本単位から再生します。再生位置は,プレイヤーのスライダーをクリック,もしくは,ドラッグして,調節できます。
  • VLCを利用する場合
    1. VLCをインストールしてください。
    2. USBメモリの次のフォルダの wav ファイルを確認してください。なお,himawari_csj_sound.zipパッケージに含まれる音声データは,ogg形式です。本来VLCでもogg形式のファイルを再生できるはずですが,再生位置の指定に関連した不具合があるため,wav形式のファイルを用います。
      • WAV/core
      • WAV/noncore
    3. 「soundfiles_wav」フォルダを次の場所に作成し,上記フォルダ内からwavファイルをすべてコピーしてください。
      • Windowsの場合: 「Himawari_CSJ」フォルダの中のCorpora/CSJ/soundfiles_wav
      • macOSの場合: (「アプリケーション」フォルダ中の)『ひまわり』のアイコンを右クリック→「パッケージの内容を表示」→ Contents/Resources/Corpora/CSJ/soundfiles_wav
    4. 検索結果の「活用形」欄をダブルクリックすると,VLCでwavファイルが再生されます。
↑

第8刷†

  • 『ひまわり』内蔵プレイヤーの場合
    • 「品詞」もしくは「発音形」欄をダブルクリックしてください。
    • 当該の転記基本単位のみ再生します。前後を再生するには,プレイヤーのスライダーをクリック,もしくは,ドラッグして,調節してください。
  • VLC(事前に要インストール)の場合
    • 「活用形」欄をダブルクリックしてください。
↑

第7刷まで(VLC要インストール)†

  • Windows の場合: 「品詞」欄
  • Mac の場合: 「活用形」欄
  • Linux の場合: 「品詞」欄
    • ただし,Linux の場合は,設定ファイル(config.xml,または,config_csj_all.xml)を次のように一部修正する必要があります。
      1. "<access_command1" で始まる行を削除して下さい。
      2. "<access_command3" で始まる行を探し,"<access_command1" として下さい。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-05-15
    • 観察支援ツール FishWatchr
    2025-04-08
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS
    2024-11-21
    • 成果物の短縮URL
    2024-06-11
    • 観察支援ツール FishWatchr/既知の問題

total:7858
today:1
yesterday:0

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-11-13 (月) 16:36:24