国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
#author("2021-12-22T17:02:09+09:00","default:rd","rd") [[全文検索システム『ひまわり』/『昭和話し言葉コーパス』]] #author("2022-03-28T10:32:50+09:00","default:rd","rd") //#br //&color(red){&size(20){本ページは,現在構築中です。また,パッケージの配布もまだ行っていません。};}; //#br //#br #br &color(red){&size(20){本ページは,現在構築中です。};}; #br #br RIGHT:パッケージ作成者:山口昌也 (国立国語研究所) RIGHT:2021-xx-xx RIGHT:2021-03-27 #br ''目次'' #contents #br *1.はじめに [#bbc4fbe7] このページでは,[[『昭和話し言葉コーパス』:https://www2.ninjal.ac.jp/conversation/showaCorpus/index.html]] (以後,SSC) の全文検索『ひまわり』用パッケージSSCパッケージの利用方法を説明します。特徴は,次のとおりです。 - 全転記テキストの全文検索 - 形態素解析結果(短単位)を利用した検索,形態素解析結果の表示 - 検索結果からの転記テキスト全体の表示 - 検索結果からの音声ファイルの再生 - SSCに同梱されるメタデータ(講演情報,話者情報)の閲覧 なお,SSCパッケージは,SSCの配布データに含まれる転記テキスト,メタデータを『ひまわり』にインポートする形で構築しています。 |&ref(./himawari_ssc.png,40%);| |(クリックすると拡大します)| *2.準備 [#r8416b89] **2.1 インストール [#v01d9a07] + 全文検索システム『ひまわり』(ver.1.7以降)をインストールしてください。 + 全文検索システム『ひまわり』(&color(red){ver.1.7.1以降};)をインストールしてください。 + SSCパッケージをダウンロードしてください。なお,データの配布は,コーパス開発センターで行っており,ダウンロードには,コーパス検索アプリケーション「中納言」の[[ユーザ登録>https://chunagon.ninjal.ac.jp/useraccount/register]]が必要です。 -- himawari_ssc_2021xxxx.zip (xxxMB) -- [[himawari_ssc_20211129.zip>https://ssc-data.ninjal.ac.jp/course/view.php?id=3]] (636MB) + ダウンロードしたzipファイルを,起動している『ひまわり』にドラッグ&ドロップしてください。 + 動作確認をしてください。 **2.2 動作確認 [#f61920b2] パッケージのインストールが終了すると,SSCが検索できる状態になっています。検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。上の図は,「言葉」を検索した結果です。 * 3.転記テキストの検索 [#af48e21e] ** 3.1 検索結果 [#j3d70dc3] 検索結果の各列の説明は,次のとおりです。SSCのマニュアルもあわせて,参照して下さい。 |~列名|~備考| ||450|c |前文脈|キーの前文脈| |キー|検索文字列| |後文脈|キーの後文脈| |ファイルID|キーが出現したファイルのID| |話者ID|当該発話の話者情報| |氏名|~| |性別|~| |収録時年齢|~| |生年|~| |出身地|~| |居住地|~| |職業|~| |タイプ|当該ファイルの情報| |タイトル|~| |録音年月|~| |開始時間|当該発話の開始時間| |終了時間|当該発話の終了時間| |品詞|キーの先頭文字を含む語(短単位)の情報| |活用型|~| |活用形|~| |語種|~| |語彙素|~| |語彙素読み|~| |発音形出現形|~| |発音|~| |書字形|~| |タグ付き書字形|~| |語彙素-2|当該語の2語前の語彙素| |語彙素-1|当該語の1語前の語彙素| |語彙素1|当該語の1語後の語彙素| |語彙素2|当該語の2語後の語彙素| |Tier|当該発話のTextGridデータにおける層| ** 3.2 検索対象の詳細 [#ree5188d] #ref(./himawari_ssc_search_target.png,right,around,80%,検索対象) 検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_6/4.詳細な検索を行う]]もあわせてご覧ください。 #ref(./himawari_ssc_search_target.png,left,around,wrap,80%,検索対象) 検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_7/4.詳細な検索を行う]]もあわせてご覧ください。 #clear *** 全文,全文(正規表現) [#f9ab4522] - 転記テキストを全文検索します。ただし,複数の発話(発話単位)をまたいだ検索はできません。 - 検索結果の「キー」欄には,マッチした文字列が表示されます。 - 全文(正規表現)では,検索文字列に正規表現が利用できますが,通常の全文検索よりも低速です。 - 検索例 -- 検索例1a:「国語」で全文検索します。 -- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。 > |&ref(./himawari_ssc_ex1a.png,70%);|&ref(./himawari_ssc_ex1b.png,70%);| |検索例1a|検索例1b|h *** 書字形,書字形(タグ付),書字形(正規表現) [#g3a619b1] - 短単位の書字形,タグ付き書字形で検索します。 -- 書字形,書字形(タグ付)の場合 --- 「検索文字列」欄で指定した文字列で部分一致検索します。 --- 検索結果の「キー」欄には,マッチした語が表示されます。 --- 検索結果の「キー」欄には,マッチした語(短単位)が表示されます。 --- 「検索文字列」欄では正規表現は利用できませんが,「正規表現(前)」「正規表現(後)」欄と組み合わせて,制限付きの正規表現を使えます。 --- 前後文脈は「フィルタ」タブで指定して下さい。 --書字形(正規表現)の場合 --- 「検索文字列」欄で正規表現が使えます。 --- ただし,「書字形」検索よりも低速です。 --- 検索結果の「キー」欄には,マッチした文字列(&color(red){語ではないことに注意};)が表示されます。 - 「全文」の場合と異なり,検索結果のキー欄は,短単位で表示されます。 //- 「全文」の場合と異なり,検索結果のキー欄は,短単位で表示されます。 #br - 検索例(「書字形」「書字形(タグ付)」) -- 検索例2a:書字形に「国語」を含む場合にマッチします。 -- 検索例2b:書字形が「国語」で始まる場合にマッチします。 -- 検索例2c:書字形が「国語」の場合にマッチします。 -- 検索例2a:書字形に「国」を含む場合にマッチします。 -- 検索例2b:書字形が「国」で始まる場合にマッチします。 -- 検索例2c:書字形が「国」の場合にマッチします。 #br |&ref(./himawari_su1a.png,80%);|&ref(./himawari_su2a.png,80%);|&ref(./himawari_su3a.png,80%);| |&ref(./himawari_ssc_ex2a.png);|&ref(./himawari_ssc_ex2b.png);|&ref(./himawari_ssc_ex2c.png);| |検索例2a|検索例2b|検索例2c|h #br - 検索例(「書字形(正規表現)」) -- 検索例3a:書字形に「国語」を含む場合にマッチします。 -- 検索例3a:書字形に「国」を含む場合にマッチします。 -- 検索例3b:書字形が「国」で始まる場合にマッチします。 -- 検索例3c:書字形が「国語」の場合にマッチします。。 -- 検索例3c:書字形が「国」の場合にマッチします。 #br |&ref(./himawari_ssc_ex3a.png);|&ref(./himawari_ssc_ex3b.png);|&ref(./himawari_ssc_ex3c.png);| |検索例3a|検索例3b|検索例3c|h #br *** 語彙素,語彙素読み,品詞 [#lc71a256] - 短単位の語彙素,語彙素読み,品詞で検索します。 - 検索結果の「キー」欄には,マッチした語が表示されます。 - 「検索文字列」欄では正規表現は利用できませんが,「正規表現(前)」「正規表現(後)」欄と組み合わせて,制限付きの正規表現を使えます。 - 前後文脈は,「フィルタ」タブで指定して下さい。 // - 検索例 // -- 検索例1a:「国語」で全文検索します。 // -- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。 #br - 検索例 -- 検索例4a:語彙素読みに「コト」を含む場合にマッチします。 -- 検索例4b:語彙素読みが「コト」で終わる場合にマッチします。 -- 検索例4c:語彙素読みが「タベル」の場合にマッチします。 #br |&ref(./himawari_ssc_ex4a.png);|&ref(./himawari_ssc_ex4b.png);|&ref(./himawari_ssc_ex4c.png);| |検索例4a|検索例4b|検索例4c|h #br // |&ref(./himawari_zenbun1a.png,80%);|&ref(./himawari_zenbun2a.png,80%);| // |検索例1a|検索例1b|h *** 話者ID [#f9ab4522] - 指定した話者IDにマッチ(部分一致)します。 - 検索結果の「キー」欄には,マッチした話者IDの1発話が表示されます。 //- 文字列照合は,部分一致です。 // #br // |&ref(./himawari_su7a.png,80%);|&ref(./himawari_su8a.png,80%);|&ref(./himawari_su9a.png,80%);| // |検索例3a|検索例3b|検索例3c|h // #br // *** 語彙素,語彙素読み,品詞 [#lc71a256] // - 短単位の語彙素,語彙素読み,品詞で検索します。 // - 検索結果の「キー」欄には,マッチした語が表示されます。 // - 文字列の照合には,正規表現(前),正規表現(後)欄で,正規表現を使うことができます。 // - 前後文脈は,「フィルタ」タブで指定して下さい。 // #br // - 検索例 // -- 検索例4a:語彙素読みに「コクゴ」を含む場合にマッチします。 // -- 検索例4b:語彙素読みが「ゴ」で終わる場合にマッチします。 // -- 検索例4c:語彙素読みが「タベル」の場合にマッチします。 // #br // |&ref(./himawari_su4a.png,80%);|&ref(./himawari_su5a.png,80%);|&ref(./himawari_su6a.png,80%);| // |検索例4a|検索例4b|検索例4c|h // #br *** 話者ID [#g4ec3357] - 話者IDをキーとして検索します。 - 検索結果の「キー」欄には,当該の発話IDを持つ発話が検索されます。 - 文字列の照合には,正規表現(前),正規表現(後)欄で,正規表現を使うことができます。 // - 検索例 // -- 検索例5a:話者IDが「T005_032」を含む場合にマッチします。 // -- 検索例5b:話者IDが「T005」で始まる場合にマッチします。 // #br // |&ref(./himawari_speaker1a.png,80%);|&ref(./himawari_speaker2a.png,80%);| // |検索例5a|検索例5b|h // #br - 検索例 -- 検索例5a:話者IDが「C001」を含む場合にマッチします。 -- 検索例5b:話者IDが「C」で始まる場合にマッチします。 #br |&ref(./himawari_ssc_ex5a.png);|&ref(./himawari_ssc_ex5b.png);| |検索例5a|検索例5b|h #br **3.3 データの閲覧 [#w506917b] **3.3.1 ファイルデータベースの閲覧 [#i129a3cc] - 検索結果の「ファイルID」列の値をダブルクリックすることにより,当該行のファイルの情報をファイルデータベースから検索し,表示します。 #br |&ref(./himawari_file_db.png,80%);| |&ref(./himawari_ssc_file.png);| #br - すべてのファイルのデータを表示するには,[ツール]⇒[一覧]⇒ファイルDBを実行して下さい。 **3.3.2 話者データベースの閲覧 [#x0dd48ec] - 検索結果の「話者ID」列の値をダブルクリックすることにより,当該行の話者の情報を話者データベースから検索し,表示します。 #br |&ref(./himawari_speaker_db.png,80%);| |&ref(./himawari_ssc_speaker.png);| #br - すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話者DBを実行して下さい。 **3.3.3 音声ファイルの再生 [#re78ec3b] - 検索結果の「話者」「性別」列もしくは「年齢」列の値をダブルクリックすることにより,当該行から始まる音声を,VLCで再生することができます。 - Windows,macOSの場合,パッケージに同梱されているVLCが使用されます。 - 検索結果の「話者」「性別」列もしくは「年齢」列の値をダブルクリックすることにより,当該転記単位から始まる音声を再生することができます。 - デフォルトの再生範囲は,当該転記単位です。その周辺を再生したい場合は,プレイヤーのスライダーを再生したい位置までドラッグするか,再生したい位置をダブルクリックしてください。 #br #ref(./himawari_ssc_play_soundfile.png,nowrap) #br **3.3.4 転記テキストの閲覧 [#ga9b8777] 検索結果(「ファイルID」「話者ID」「話者」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。 -検索文字列は,赤色で表示されます。 -転記テキスト中で使用されているタグは,次のように表示されます。 #br |タグ名|表示方法|h |読み|タグ付けされたテキストにルビとして表示| |転訛|タグ付けされたテキストにルビ(括弧つき)として表示| |他話者,引用|タグ付けされたテキスト強調表示(ボールド)| |咳,笑,板書|タグを青色で表示| |録音途切れ,録音途切れ|~| |他音声混入,ノイズ混入|~| |講演開始までのやり取り(転記なし)|~| |F, D, M|タグ付けされたテキストをそのまま表示| #br //-「/」は,短単位の区切りを表します。 // -個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。 -「/」は,短単位の区切りを表します。 -個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。 -ブラウザは,[オプション]⇒[ブラウザ]で選択することができます。 #br #ref(./himawari_browse_transcript.png,nowrap,70%) #ref(./himawari_ssc_browse_transcript.png,nowrap,80%) #br // **4.4 分析のための機能 [#n5743254] // *** 4.4.1 検索結果の集計 [#y724c185] // - 検索結果に対して,選択した列に含まれる値の頻度を集計します。 // -- 列の選択は,選択したい列のセル(どこでもよい)を選択することにより行います。 // -- 複数の列を選択してもかまいません。 // - 選択後,右クリック⇒[統計]を実行すると,集計が実行されます。 // #br // - ''例:会話IDごとの頻度を集計する例'' // #br // |選択例|実行結果|h // |BGCOLOR(WHITE):&ref(./himawari_stat_conv_id1.png,40%);|BGCOLOR(WHITE):&ref(./himawari_stat_conv_id2.png,40%);| // #br // *** 4.4.2 コーパスの基本情報の取得[#w92f463c] // -[ツール]⇒[一覧]⇒[ユーザ入力]により,CEJCの転記テキストに付与されている,さまざまなタグの内容を集計することができます。この機能の詳細は,『ひまわり』利用者マニュアル([[「6.アノテーション内容を集計する」>全文検索システム『ひまわり』/利用者マニュアル/1_6/6.アノテーション内容を集計する]])をご覧ください。 // - 集計できるタグは,次のとおりです。 // |タグ名|説明|付与されている属性例|h // |cejc| 転記テキスト全体に対して付与されている情報|会話ID,話者間の関係| // |u |発話に付与されている情報|話者ID,年齢,職業,出身地| // |s |単語に付与されている情報|品詞,語彙素,発音| // - 例1:単語頻度(品詞別) // -- 第1階層タグをsにし,属性設定(右側のメニュー)で「品詞」を選択 // -- 「頻度」をチェック // #br // LEFT: // |&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_list_pos2.png,80%);| // #br // - 例2:単語頻度(語彙素別) // -- 第1階層タグをsにし,属性設定(右側のメニュー)で「活用型」「語彙素」「語彙素読み」「品詞」を選択 // -- 「頻度」をチェック // #br // |&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_list_pos3.png,80%);| // #br // - 例3:会話データごとの発話数 // -- 第1階層タグをcejcにし,属性設定(右側のメニュー)で「発話ID」を選択 // -- 第2階層タグをuにする。属性設定(右側のメニュー)は「選択なし」 // -- 「頻度」をチェック // #br // |&ref(./himawari_list_conv1.png,80%);|&ref(./himawari_list_conv2.png,80%);| // #br // - 例4:会話データごとの単語数 // -- 第1階層タグをcejcにし,属性設定(右側のメニュー)で「発話ID」を選択 // -- 第2階層タグをsにする。属性設定(右側のメニュー)は「品詞」を選択 // -- 「頻度」をチェック // #br // --(1) まず,会話データごとの各品詞の頻度を計測 // //#br // //|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_list_pos5.png,80%);| // //#br // --(2) 計測したくない品詞の語を取り除くため,「品詞」列を右クリックし,フィルタを設定 // --- ここでは,「himawari_発話末」「形態論情報付与対象外」します。 // --- 「文字列指定」で次の正規表現を指定(「himawari」「形態論」で始まる品詞を除外) // ^(?!himawari|形態論).+$ // #br // |(1)の計測の設定|(1)の結果|(2)のフィルタ設定|h // |&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_list_pos5.png,80%);|&ref(./himawari_list_pos6.png,80%);| // #br // --(3) 最後に「会話ID」列の値のどれかを選択し,右クリック⇒「統計」で,各会話ごとの単語数を求めます。「現在の「頻度」欄の値を考慮して,新しい頻度を計測しますか?」には,「はい」と答えて下さい。 // #br // |&ref(./himawari_list_pos7.png,80%);| // //|フィルタの設定|最終的な集計結果|h // //|&ref(./himawari_list_pos6.png,80%);|&ref(./himawari_list_pos7.png,80%);| // #br // * 5.動画の閲覧とアノテーション:FishWatchr [#u6927306] // ** 5.1 動画の閲覧 [#s0d837fa] // 『ひまわり』の検索結果の「性別」もしくは「年齢」列の値をダブルクリックすると,当該行の検索結果の動画を[[観察支援システムFishWatchr>観察支援ツール FishWatchr]]で閲覧することができます。 // FishWatchrの機能のうち,よく使うものを次に挙げておきます。詳細は,FishWatchrの[[マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0]]を参照して下さい。 // - 動画の再生,停止,早送り // -- 画面中央の操作パネル(&ref(./fw_control.png,70%);)を使用します。 // //-- 画面中央の操作パネル(◀◀,▶,▶▶,⏹)を使用します。 // -- 再生位置は,次の三つの方法で指定することができます。 // --- 画面中央のスライダ(下図 // --- 画面左側のグラフのダブルクリック(グラフの横軸は再生経過時間,下図△遼誓は再生位置) // --- 発話リストの時間列の値(下図)のダブルクリック // -- 画面中央の「注記連動」(下図ぁ砲鬟船Д奪すると,再生位置と同期して,発話リストがスクロールします。 // -- 再生速度は,Ctrl+「.」,Ctrl+「,」で上下します。Ctrl+「/」でリセットです。 // - 画面左上のグラフの使い方 // -- 発話の存在を時間軸上にプロットしています。 // -- 「表示」メニュー(下図ァ砲派充対象(「話者」「ラベル」)を選択できます。 // -- グラフ下部の棒グラフは,起点とする時刻において,前後10秒間(デフォルト)に存在する発話数です。 // -- 横方向にドラッグすると,その範囲を詳細に表示することができます。 // --- 元の範囲に戻すには,グラフ上部の「リセット」ボタンを押して下さい。 // &ref(./cejc_fw2.png,35%); // ** 5.2 アノテーション [#k4c05885] // - アノテーションボタン(上図Α砲魏,垢函ず得鍵銘屬肪躰瓠僻話リストに1行追加されます)をつけることができます。 // -- 追加した注釈を削除するには,削除する行のいずれかの列で右クリックし,「行の削除」を実施して下さい。なお,発話の行も削除できるので,注意して下さい。 // -- 「番号」「時間」「コメント」列以外は,ダブルクリックすると,編集が可能です。 // - 既存の発話の「補助情報」列には,追加のコメントを記入することができます。 // - アノテーションボタン,追加する注釈の「注釈者」名は,ウィンドウ上部の「注釈」メニューから変更できます。詳細は,[[マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0/2.準備]]を参照して下さい。 //*5.トラブルシューティング [#d318150a] //- Windows 環境において,メモリ不足関連のエラー(システムエラー(Java heap space)など)がでます。 //-- 『ひまわり』FAQの「[[64bit版のJavaを利用する>全文検索システム『ひまわり』/FAQ#pe141e44]]」を参照して下さい。 //- Windows 環境において,文字が小さすぎます。 //-- 『ひまわり』FAQの「[[『ひまわり』に表示される文字が小さすぎます>全文検索システム『ひまわり』/FAQ#l20e1c12]]」を参照して下さい。 *4.お問い合わせ [#q31d0b9a] - SSC本体に関するお問合わせは,showa_corpus [at] ninjal.ac.jp ( [at] は @ に変換してください) にお願いします。 -『ひまわり』もしくは本パッケージに関するお問い合わせは,&ref(全文検索システム『ひまわり』/himawari_mail_ninjal.png);にお願いします。ただし,お問い合わせ前には,必ず,[[『ひまわり』利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_6]],[[『ひまわり』FAQ>全文検索システム『ひまわり』/FAQ]]を確認して下さい。 *謝辞 [#w0ad33f2] 本研究は,国立国語研究所共同研究プロジェクト[[「大規模日常会話コーパスに基づく話し言葉の多角的研究」>https://www2.ninjal.ac.jp/conversation/]]の一環として行われました。 全文検索システム『ひまわり』の作成にあたっては,次のJSPS科研費の助成を受けています。 -「昭和話し言葉コーパス」の構築による話し言葉の経年変化に関する実証的研究」([[16H03426>https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-16H03426/]])