全文検索システム『ひまわり』/『昭和話し言葉コーパス』

パッケージ作成者：山口昌也 (国立国語研究所)

2021-03-27

１．はじめに
２．準備
- 2.1 インストール
- 2.2 動作確認
３．転記テキストの検索
４．お問い合わせ
謝辞

１．はじめに†

　このページでは，『昭和話し言葉コーパス』 (以後，SSC) の全文検索『ひまわり』用パッケージSSCパッケージの利用方法を説明します。特徴は，次のとおりです。

全転記テキストの全文検索
形態素解析結果（短単位）を利用した検索，形態素解析結果の表示
検索結果からの転記テキスト全体の表示
検索結果からの音声ファイルの再生
SSCに同梱されるメタデータ（講演情報，話者情報）の閲覧

　なお，SSCパッケージは，SSCの配布データに含まれる転記テキスト，メタデータを『ひまわり』にインポートする形で構築しています。

（クリックすると拡大します）

↑

２．準備†

↑

2.1 インストール†

全文検索システム『ひまわり』(ver.1.7.1以降)をインストールしてください。
SSCパッケージをダウンロードしてください。なお，データの配布は，コーパス開発センターで行っており，ダウンロードには，コーパス検索アプリケーション「中納言」のユーザ登録が必要です。
- himawari_ssc_20211129.zip (636MB)
ダウンロードしたzipファイルを，起動している『ひまわり』にドラッグ＆ドロップしてください。
動作確認をしてください。

↑

2.2 動作確認†

　パッケージのインストールが終了すると，SSCが検索できる状態になっています。検索できるかどうか，確認してください。検索するには，検索欄に適当な文字列を入力し，「検索」ボタンを押します。上の図は，「言葉」を検索した結果です。

↑

３．転記テキストの検索†

↑

3.1 検索結果†

　検索結果の各列の説明は，次のとおりです。SSCのマニュアルもあわせて，参照して下さい。

列名	備考
前文脈	キーの前文脈
キー	検索文字列
後文脈	キーの後文脈
ファイルID	キーが出現したファイルのID
話者ID	当該発話の話者情報
氏名
性別
収録時年齢
生年
出身地
居住地
職業
タイプ	当該ファイルの情報
タイトル
録音年月
開始時間	当該発話の開始時間
終了時間	当該発話の終了時間
品詞	キーの先頭文字を含む語（短単位）の情報
活用型
活用形
語種
語彙素
語彙素読み
発音形出現形
発音
書字形
タグ付き書字形
語彙素-2	当該語の２語前の語彙素
語彙素-1	当該語の１語前の語彙素
語彙素1	当該語の１語後の語彙素
語彙素2	当該語の２語後の語彙素
Tier	当該発話のTextGridデータにおける層

↑

3.2 検索対象の詳細†

　検索文字列欄の左のメニューから，検索対象を選択することができます。『ひまわり』利用者マニュアルの4.1 節もあわせてご覧ください。

↑

全文，全文(正規表現）†

転記テキストを全文検索します。ただし，複数の発話（発話単位）をまたいだ検索はできません。
検索結果の「キー」欄には，マッチした文字列が表示されます。
全文(正規表現）では，検索文字列に正規表現が利用できますが，通常の全文検索よりも低速です。

検索例
- 検索例1a：「国語」で全文検索します。
- 検索例1b：「国語」で全文検索し，その後文脈が「の」で始まる場合にマッチします。

検索例1a 検索例1b

↑

書字形，書字形(タグ付)，書字形(正規表現)†

短単位の書字形，タグ付き書字形で検索します。
- 書字形，書字形(タグ付)の場合
  - 「検索文字列」欄で指定した文字列で部分一致検索します。
  - 検索結果の「キー」欄には，マッチした語(短単位)が表示されます。
  - 「検索文字列」欄では正規表現は利用できませんが，「正規表現（前）」「正規表現（後）」欄と組み合わせて，制限付きの正規表現を使えます。
  - 前後文脈は「フィルタ」タブで指定して下さい。
- 書字形(正規表現)の場合
  - 「検索文字列」欄で正規表現が使えます。
  - ただし，「書字形」検索よりも低速です。
  - 検索結果の「キー」欄には，マッチした文字列（語ではないことに注意）が表示されます。
検索例（「書字形」「書字形(タグ付)」）
- 検索例2a：書字形に「国」を含む場合にマッチします。
- 検索例2b：書字形が「国」で始まる場合にマッチします。
- 検索例2c：書字形が「国」の場合にマッチします。
  
  検索例2a 検索例2b 検索例2c
検索例（「書字形(正規表現)」）
- 検索例3a：書字形に「国」を含む場合にマッチします。
- 検索例3b：書字形が「国」で始まる場合にマッチします。
- 検索例3c：書字形が「国」の場合にマッチします。
  
  検索例3a 検索例3b 検索例3c

↑

語彙素，語彙素読み，品詞†

短単位の語彙素，語彙素読み，品詞で検索します。
検索結果の「キー」欄には，マッチした語が表示されます。
「検索文字列」欄では正規表現は利用できませんが，「正規表現（前）」「正規表現（後）」欄と組み合わせて，制限付きの正規表現を使えます。
前後文脈は，「フィルタ」タブで指定して下さい。

検索例
- 検索例4a：語彙素読みに「コト」を含む場合にマッチします。
- 検索例4b：語彙素読みが「コト」で終わる場合にマッチします。
- 検索例4c：語彙素読みが「タベル」の場合にマッチします。
  
  検索例4a 検索例4b 検索例4c

↑

話者ID†

話者IDをキーとして検索します。
検索結果の「キー」欄には，当該の発話IDを持つ発話が検索されます。
文字列の照合には，正規表現（前），正規表現（後）欄で，正規表現を使うことができます。

検索例
- 検索例5a：話者IDが「C001」を含む場合にマッチします。
- 検索例5b：話者IDが「C」で始まる場合にマッチします。
  
  検索例5a 検索例5b

↑

3.3 データの閲覧†

↑

3.3.1 ファイルデータベースの閲覧†

検索結果の「ファイルID」列の値をダブルクリックすることにより，当該行のファイルの情報をファイルデータベースから検索し，表示します。
すべてのファイルのデータを表示するには，[ツール]⇒[一覧]⇒ファイルDBを実行して下さい。

↑

3.3.2 話者データベースの閲覧†

検索結果の「話者ID」列の値をダブルクリックすることにより，当該行の話者の情報を話者データベースから検索し，表示します。
すべての話者のデータを表示するには，[ツール]⇒[一覧]⇒話者DBを実行して下さい。

↑

3.3.3 音声ファイルの再生†

検索結果の「話者」「性別」列もしくは「年齢」列の値をダブルクリックすることにより，当該転記単位から始まる音声を再生することができます。
デフォルトの再生範囲は，当該転記単位です。その周辺を再生したい場合は，プレイヤーのスライダーを再生したい位置までドラッグするか，再生したい位置をダブルクリックしてください。

↑

3.3.4 転記テキストの閲覧†

　検索結果（「ファイルID」「話者ID」「話者」「性別」「年齢」列を除く）をダブルクリックすると，当該の検索文字列を含んだ転記テキストを閲覧することができます。

検索文字列は，赤色で表示されます。
転記テキスト中で使用されているタグは，次のように表示されます。
「/」は，短単位の区切りを表します。
個々の短単位にマウスカーソルを合わせると，下の図のように短単位の各種属性が表示されます。
ブラウザは，[オプション]⇒[ブラウザ]で選択することができます。

↑

４．お問い合わせ†

SSC本体に関するお問合わせは，showa_corpus [at] ninjal.ac.jp ( [at] は @ に変換してください) にお願いします。
『ひまわり』もしくは本パッケージに関するお問い合わせは，にお願いします。ただし，お問い合わせ前には，必ず，『ひまわり』利用者マニュアル，『ひまわり』FAQを確認して下さい。