国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
#author("2018-12-05T16:55:51+09:00","default:rd","rd") #author("2018-12-05T17:01:02+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] #br &color(red){&size(20){本ページは,現在構築中です。};}; #br #br RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2018-12-xx #br #contents *1.はじめに [#bbc4fbe7] [[『日本語日常会話コーパス』:https://pj.ninjal.ac.jp/conversation/corpus.html]]の[[モニター公開版>https://pj.ninjal.ac.jp/conversation/cejc-monitor.html]](以後,CEJC)の配布ハードディスクには,全文検索システム『ひまわり』を用いた検索環境(以後,「本検索環境」)が同梱されています。このページでは,本検索環境の利用方法を説明します。本検索環境の特徴は,次のとおりです。 - 全転記テキストの全文検索 - 形態素解析結果(短単位)を利用した検索,形態素解析結果の表示 - 検索結果からの転記テキスト全体の表示 - 検索結果からの動画ファイルの再生(FishWatchrを利用,アノテーションも可) - CEJCに同梱される会話DB,話者DBの閲覧 #br |BGCOLOR(white):&ref(./cejc_himawari.png,20%);|BGCOLOR(white):&ref(./cejc_fw.png,20%);| |全文検索『ひまわり』での転記テキストの検索|観察支援システムFishWatchrによる動画ファイルの再生|h #br *2.動作環境 [#v01d9a07] CEJCパッケージは,次の環境で動作します。 - Windows (Windows7以降) - macOS - その他(Java および VLCが動作する環境) *3.準備 [#g12e5585] ** 3.1 使用機器の準備 [#he8a4b3b] - ''配布されたCEJCのハードディスクを利用する場合'' -- ハードディスクをPCに接続する以外,機器の設定は必要ありません。 - ''PC内臓のハードディスクなど,高速なディスクを利用したい場合'' -- 配布ハードディスクの内容を''すべて''コピーして利用して下さい。 -- コピー時には,フォルダの構成は変更しないで下さい。 - ''Windows,macOS以外のPCを利用している場合'' -- Linux,FreeBSDなど,Java,VLCが動作する環境では,CEJCパッケージも動作する可能性があります。 -- &color(red){各自の環境に合わせて,JavaとVLCをインストールして下さい。};参考のため,配布サイトの例を示します。 --- [[Java>https://www.java.com/ja/download/]] (Oracle社) --- [[VLC>https://www.videolan.org/vlc/]] (VideoLAN Organization) -- Android,iOSでは,動作しません。 ** 3.2 各種ドキュメント [#ub26395b] 本ページでは,CEJCパッケージに固有の事柄について説明します。CEJCや『ひまわり』,FishWatchr自体の一般的な使い方については,それぞれのマニュアルを参照して下さい。 - CEJCの[[各種マニュアル>https://pj.ninjal.ac.jp/conversation/cejc-monitor.html]] - [[『ひまわり』利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_6]] - [[FishWatchr利用者マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0]] **3.3 『ひまわり』の起動の確認 [#n7243063] + 配布ハードディスクの「Himawari_CEJC」フォルダを開いて下さい。場所は,次のとおりです。 CEJC → tool → Himawari_CEJC + 『ひまわり』を実行 -- ''Windowsの場合:'' himawari.exe をダブルクリックして下さい。 #br #ref(./himawari_folder_win.png,45%) #br -- ''macOSの場合:'' Himawari をダブルクリックして下さい。 #br #ref(./himawari_folder_mac.png,30%) #br -- ''その他の場合'' +++ シェルを起動し,カレントディレクトリを「Himawari_CEJC」フォルダにして下さい。 +++ 次のコマンドを実行して下さい。 % java -jar himawari.jar **3.4 検索できることの確認 [#f61920b2] 『ひまわり』が起動したら,検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。次の例では,「学校」を検索した結果です。 #ref(./himawari_search_test.png,65%) * 4.転記テキストの検索:『ひまわり』 [#u6548c7e] ** 4.1 検索結果 [#j3d70dc3] 検索結果の各列の説明は,次のとおりです。CEJCマニュアルもあわせて,参照して下さい。 |~列名|~備考| ||450|c |前文脈|キーの前文脈| |キー|検索文字列| |後文脈|キーの後文脈| |会話ID|キーが出現した会話のID| |話者ラベル|キーを発話した話者のラベル| |話者ID|キーを発話した話者のID| |性別|話者の性別| |年齢|話者の年齢| |出身地|話者の出身地| |居住地|話者の居住地| |品詞|キーの先頭文字を含む語(短単位)の情報| |活用型|~| |活用形|~| |語彙素|~| |語彙素読み|~| |発音形出現形|~| |発音|~| |タグ付き出現形|~| |語彙素-2|当該語の2語前の語彙素| |語彙素-1|当該語の1語前の語彙素| |語彙素1|当該語の1語後の語彙素| |語彙素2|当該語の2語後の語彙素| |開始時刻|当該発話の開始時刻| |終了時刻|当該発話の終了時刻| |コメント|当該発話に付与されているコメント| |仮名|キーの先頭文字が仮名の一部か否かを表すフラグ&br;仮名の場合は「仮名」,そうでない場合は空欄| ** 4.2 検索対象の詳細 [#ree5188d] #ref(./himawari_search_target2.png,left,around,100%,検索対象) 検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_6/4.詳細な検索を行う]]もあわせてご覧ください。 #clear *** 全文 [#f9ab4522] - 短単位,発話の区切りを考慮せずに,全文検索します。 - 検索結果として表示される,短単位,発話に関する情報は,検索文字列の先頭の文字に付与されている情報です。例えば,「を食べる」を検索した場合,「を」に付与されている情報が表示されます。 - 検索例 -- 検索例1a:「国語」で全文検索します。 -- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。 |&ref(./himawari_zenbun1.png,80%);|&ref(./himawari_zenbun2.png,80%);| |検索例1a|検索例1b|h *** 全文(正規表現,短単位),全文(正規表現,発話) [#jcfd9750] - 短単位,もしくは,発話の区切りを考慮して,全文検索します。上記の「全文」の場合と異なり,短単位,発話をまたいだ文字列は,検索されません。 - 正規表現を使うことができます。ただし,検索速度は「全文」や「書字形」などより低速です。 - 検索例 -- 検索例2a:発話内に「国語」を含む場合にマッチします。 -- 検索例2b:短単位が「国」で始まる場合にマッチします。 -- 検索例2c:発話内に「やっと〜よ」を含む場合にマッチします。 #br |&ref(./himawari_zenbun_regex1.png,80%);|&ref(./himawari_zenbun_regex2.png,80%);|&ref(./himawari_zenbun_regex3.png,80%);| |検索例2a|検索例2b (正規表現「^国.*$」)|検索例2c (正規表現「やっと.*」)|h #br *** 書字形,書字形(タグ付),語彙素,語彙素読み,品詞 [#lc71a256] - 短単位の書字形,タグ付き書字形,語彙素,語彙素読み,品詞で検索します。 - 「全文」の場合と異なり,検索結果のキー欄は,短単位で表示されます。 - 文字列の照合には,正規表現(前),正規表現(後)欄で,正規表現を使うことができます。 - 前後文脈は,「フィルタ」タブで指定して下さい。 - 検索例 -- 検索例3a:書字形に「国語」を含む場合にマッチします。 -- 検索例3b:書字形が「国」で始まる場合にマッチします。 -- 検索例3c:書字形が「国語」の場合にマッチします。 #br |&ref(./himawari_su1.png,80%);|&ref(./himawari_su2.png,80%);|&ref(./himawari_su3.png,80%);| |検索例3a|検索例3b|検索例3c|h #br -- 検索例4a:語彙素読みに「コクゴ」を含む場合にマッチします。 -- 検索例4b:語彙素読みが「ゴ」で終わる場合にマッチします。 -- 検索例4c:語彙素読みが「タベル」の場合にマッチします。 #br |&ref(./himawari_su4.png,80%);|&ref(./himawari_su5.png,80%);|&ref(./himawari_su6.png,80%);| |検索例4a|検索例4b|検索例4c|h #br *** 話者ID [#g4ec3357] - 話者IDをキーとして検索します。 - 検索結果のキー欄は,当該の発話IDを持つ発話が検索されます。 - 文字列の照合には,正規表現(前),正規表現(後)欄で,正規表現を使うことができます。 - 検索例 -- 検索例5a:話者IDが「T005_032」を含む場合にマッチします。 -- 検索例5b:話者IDが「T005」で始まる場合にマッチします。 #br |&ref(./himawari_speaker1.png,80%);|&ref(./himawari_speaker2.png,80%);| |検索例5a|検索例5b|h #br **4.3 データの閲覧 [#w506917b] **4.3.1 会話データベースの閲覧 [#i129a3cc] - 検索結果の「会話ID」列の値をダブルクリックすることにより,当該行の会話の情報を会話データベースから検索し,表示します。 #br |&ref(./himawari_conversation_db.png,80%);| #br - すべての会話のデータを表示するには,[ツール]⇒[一覧]⇒会話DBを実行して下さい。 **4.3.2 話者データベースの閲覧 [#x0dd48ec] - 検索結果の「話者ID」列の値をダブルクリックすることにより,当該行の話者の情報を話者データベースから検索し,表示します。 #br |&ref(./himawari_speaker_db.png,80%);| #br - すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話者DBを実行して下さい。 **4.3.3 動画ファイルの閲覧 [#re78ec3b] - 検索結果の「性別」列もしくは「年齢」列の値をダブルクリックすることにより,当該行の会話の動画ファイルをFishWatchrで閲覧することができます。 - FishWatchrについては,5章を参照して下さい。 **4.3.4 転記テキストの閲覧 [#ga9b8777] 検索結果(「会話ID」「話者ID」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。 -検索文字列は,赤色で表示されます。 -「/」は,短単位の区切りを表します。 -個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。 -ブラウザは,[オプション]⇒[ブラウザ]で選択することができます。 #br #ref(./himawari_browse_transcript.png,80%) #br **4.4 分析のための機能 [#n5743254] *** 4.4.1 検索結果の集計 [#y724c185] - 検索結果に対して,選択した列に含まれる値の頻度を集計します。 -- 列の選択は,選択したい列のセル(どこでもよい)を選択することにより行います。 -- 複数の列を選択してもかまいません。 - 選択後,右クリック⇒[統計]を実行すると,集計が実行されます。 #br 会話IDごとの頻度を集計:fdsafdsa *** 4.4.2 コーパスの基本情報の取得 [#w92f463c] 本検索環境では,[ツール]⇒[一覧]⇒[ユーザ入力]により,CEJCの転記テキストに付与されている,さまざまなタグの内容を集計することができます。集計できるタグは,次のとおりです。 |タグ名|説明|例|h |cejc| 転記テキスト全体に対して付与されている情報|会話ID| |u |発話に付与されている情報|話者ID| |s |単語に付与されている情報|品詞,語彙素| - 会話データごとの単語数 -- * 5.動画の閲覧とアノテーション:FishWatchr [#u6927306] ** 5.1 動画の閲覧 [#s0d837fa] 『ひまわり』の検索結果の「性別」もしくは「年齢」列の値をダブルクリックすると,当該行の検索結果の動画を[[観察支援システムFishWatchr>観察支援ツール FishWatchr]]で閲覧することができます。 FishWatchrの機能のうち,よく使うものを次に挙げておきます。詳細は,FishWatchrの[[マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0]]を参照して下さい。 - 動画の再生,停止,早送り -- 画面中央の操作パネル(◀◀,▶,▶▶,⏹)を使用します。 -- 再生位置は,次の三つの方法で指定することができます。 --- 画面中央のスライダ(下図 --- 画面左側のグラフのダブルクリック(グラフの横軸は再生経過時間,下図△遼誓は再生位置) --- 発話リストの時間列の値(下図)のダブルクリック -- 画面中央の「注記連動」(下図ぁ砲鬟船Д奪すると,再生位置と同期して,発話リストがスクロールします。 -- 再生速度は,Ctrl+「.」,Ctrl+「,」で上下します。Ctrl+「/」でリセットです。 - 画面左上のグラフの使い方 -- 発話の存在を時間軸上にプロットしています。 -- 「表示」メニュー(下図ァ砲派充対象(「話者」「ラベル」)を選択できます。 -- グラフ下部の棒グラフは,起点とする時刻において,前後10秒間(デフォルト)に存在する発話数です。 -- 横方向にドラッグすると,その範囲を詳細に表示することができます。 --- 元の範囲に戻すには,グラフ上部の「リセット」ボタンを押して下さい。 &ref(./cejc_fw2.png,35%); ** 5.2 アノテーション [#k4c05885] - アノテーションボタン(上図Α砲魏,垢函ず得鍵銘屬肪躰瓠僻話リストに1行追加されます)をつけることができます。 -- 追加した注釈を削除するには,削除する行のいずれかの列で右クリックし,「行の削除」を実施して下さい。なお,発話の行も削除できるので,注意して下さい。 -- 「番号」「時間」「コメント」列以外は,ダブルクリックすると,編集が可能です。 - 既存の発話の「補助情報」列には,追加のコメントを記入することができます。 - アノテーションボタン,追加する注釈の「注釈者」名は,ウィンドウ上部の「注釈」メニューから変更できます。詳細は,[[マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0/2.準備]]を参照して下さい。 *謝辞 [#w0ad33f2] 全文検索システム『ひまわり』および観察支援システムFishWatchrの作成にあたっては,次のJSPS科研費の助成を受けています。 -「ビデオアノテーションを利用した協同型実習活動支援システムに関する研究」([[17K01105>https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-17K01105/]]) -「昭和話し言葉コーパス」の構築による話し言葉の経年変化に関する実証的研究」([[16H03426>https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-16H03426/]])