全文検索システム『ひまわり』/『日本語日常会話コーパス』
をテンプレートにして作成
開始行:
//#br
//&color(red){&size(20){本ページは,現在構築中です。};};
#br
#br
RIGHT:パッケージ作成者:山口昌也 (国立国語研究所)
RIGHT:2022-03-31
#br
''目次''
#contents
#br
*1.はじめに [#bbc4fbe7]
[[『日本語日常会話コーパス』:https://www2.ninjal.ac.jp/...
- 全転記テキストの全文検索
- 形態素解析結果(短単位)を利用した検索,形態素解析結果...
- 検索結果からの転記テキスト全体の表示
- 検索結果からの動画ファイルの再生(観察支援システムFishW...
- CEJCに同梱されるメタデータ(会話情報,話者情報)の閲覧
なお,CEJCパッケージは,配布ハードディスクに同梱される...
#br
|BGCOLOR(white):&ref(./cejc_himawari_dane.png,20%);|BGCOL...
|全文検索『ひまわり』での転記テキストの検索|観察支援シス...
#br
*2.動作環境 [#v01d9a07]
CEJCパッケージは,次の環境で動作します。
- Windows (Windows10以降)
- macOS (Webブラウザは,ChromeもしくはFirefoxを推奨)
- その他のOS(Java 11および VLCが動作する環境)
*3.準備 [#g12e5585]
** 3.1 ハードディスクの準備 [#he8a4b3b]
- ''配布されたCEJCのハードディスクを利用する場合''
-- ハードディスクをPCに接続する以外,機器の設定は必要あり...
- ''PC内臓のハードディスクなど,別のディスクを利用したい...
-- 配布ハードディスクの内容を&color(red){すべて};コピーし...
-- コピー時には,フォルダの構成は変更しないで下さい。
//- ''CEJC データ配布サイトのデータを元にハードディスクを...
//-- [[./HD構成方法]]
** 3.2 『ひまわり』などのインストールと起動 [#pe635ec0]
- [[Windows の場合>./Windows]]
- [[macOSの場合>./macOS]]
- [[その他のOSの場合>./others]]
** 3.3 各種ドキュメント [#ub26395b]
本ページでは,CEJCパッケージに固有の事柄について説明し...
- CEJCの[[各種マニュアル>https://www2.ninjal.ac.jp/conver...
- [[『ひまわり』利用者マニュアル>全文検索システム『ひまわ...
- [[FishWatchr利用者マニュアル>観察支援ツール FishWatchr/...
**3.4 検索できることの確認 [#f61920b2]
『ひまわり』が起動したら,検索できるかどうか,確認して...
#ref(./cejc_himawari_gakkou.png,65%)
* 4.転記テキストの検索:『ひまわり』 [#u6548c7e]
** 4.1 検索結果 [#j3d70dc3]
検索結果の各列の説明は,次のとおりです。CEJCマニュアル...
|~列名|~備考|
||450|c
|前文脈|キーの前文脈|
|キー|検索文字列|
|後文脈|キーの後文脈|
|会話ID|キーが出現した会話のID|
|話者ID|キーの先頭文字を含む発話(発話単位)の話者情報|
|話者ラベル|~|
|性別|~|
|年齢|~|
|出身地|~|
//|居住地|話者の居住地|
|職業|~|
|話者間の関係性|~|
|形式|キーの先頭文字を含む会話の情報|
|収録場所|~|
|収録年|~|
|活動|~|
|話者数|~|
|S品詞|キーの先頭文字を含む語(短単位)の情報&br;(長単位...
|S活用型|~|
|S活用形|~|
|S語彙素|~|
|S語彙素読み|~|
|S発音形出現形|~|
|S発音|~|
|S書字形|~|
|Sタグ付き書字形|~|
|S語彙素-2|当該語の2語前の語彙素|
|S語彙素-1|当該語の1語前の語彙素|
|S語彙素1|当該語の1語後の語彙素|
|S語彙素2|当該語の2語後の語彙素|
|開始時刻|当該発話(発話単位)の開始時刻|
|終了時刻|当該発話(発話単位)の終了時刻|
|コア|当該の会話がコアデータの場合は1,それ以外は0|
|コメント|当該発話(発話単位)に付与されているコメント|
|仮名|キーの先頭文字が仮名の一部か否かを表すフラグ&br;仮...
なお,CEJCに付与されている単語の情報は,短単位,長単位...
どちらのコーパスを使用しているかは,『ひまわり』のウィ...
#ref(./cejc_himawari_long.png,80%)
** 4.2 検索対象の詳細 [#ree5188d]
#ref(./cejc_himawari_search_targets.png,left,wrap,around,...
検索文字列欄の左のメニューから,検索対象を選択すること...
#clear
*** 全文,全文(正規表現) [#f9ab4522]
- 転記テキストを全文検索します。ただし,複数の発話(発話...
- 検索結果の「キー」欄には,マッチした文字列が表示されま...
- 全文(正規表現)では,検索文字列に正規表現が利用できます...
- 検索結果として表示される,短単位,発話に関する情報は,...
- 検索例
-- 検索例1a:「国語」で全文検索します。
-- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始...
|&ref(./himawari_zenbun1a.png,80%);|&ref(./himawari_zenbu...
|検索例1a|検索例1b|h
//*** 全文(正規表現,短単位),全文(正規表現,発話) [#jcfd...
//- 短単位,もしくは,発話(発話単位)の区切りを考慮して...
//- 正規表現を使うことができます。ただし,検索速度は「全...
//- 「全文」と同様,検索結果として表示される,短単位,発...
//- 検索例
//-- 検索例2a:発話内に「国語」を含む場合にマッチします。
//-- 検索例2b:短単位が「国」で始まる場合にマッチします。
//-- 検索例2c:発話内に「やっと〜よ」を含む場合にマ...
//#br
//|&ref(./himawari_zenbun_regex1.png,80%);|&ref(./himawar...
//|検索例2a|検索例2b (正規表現「^国.*$」)|検索例2c (正...
//#br
*** 書字形,書字形(タグ付),書字形(正規表現) [#g3a619b1]
- 短単位の書字形,タグ付き書字形で検索します。
-- 書字形,書字形(タグ付)の場合
--- 「検索文字列」欄で指定した文字列で部分一致検索します。
--- 検索結果の「キー」欄には,マッチした語が表示されます。
--- 「検索文字列」欄では正規表現は利用できませんが,「正...
--- 前後文脈は「フィルタ」タブで指定して下さい。
--書字形(正規表現)の場合
--- 「検索文字列」欄で正規表現が使えます。
--- ただし,「書字形」検索よりも低速です。
--- 検索結果の「キー」欄には,マッチした文字列(&color(re...
- 「全文」の場合と異なり,検索結果のキー欄は,短単位で表...
#br
- 検索例(「書字形」「書字形(タグ付)」)
-- 検索例2a:書字形に「国語」を含む場合にマッチします。
-- 検索例2b:書字形が「国語」で始まる場合にマッチします。
-- 検索例2c:書字形が「国語」の場合にマッチします。
#br
|&ref(./himawari_su2a.png,80%);|&ref(./himawari_su2b.png,...
|検索例2a|検索例2b|検索例2c|h
#br
- 検索例(「書字形(正規表現)」)
-- 検索例3a:書字形に「国語」を含む場合にマッチします。
-- 検索例3b:書字形が「国語」で始まる場合にマッチします。
-- 検索例3c:書字形が「国語」の場合にマッチします。
#br
|&ref(./himawari_su3a.png,80%);|&ref(./himawari_su3b.png,...
|検索例3a|検索例3b|検索例3c|h
#br
*** 語彙素,語彙素読み,品詞 [#lc71a256]
- 短単位の語彙素,語彙素読み,品詞で検索します。
- 検索結果の「キー」欄には,マッチした語が表示されます。
- 文字列の照合には,正規表現(前),正規表現(後)欄で,...
- 前後文脈は,「フィルタ」タブで指定して下さい。
#br
- 検索例
-- 検索例4a:語彙素読みに「コクゴ」を含む場合にマッチしま...
-- 検索例4b:語彙素読みが「ゴ」で終わる場合にマッチします。
-- 検索例4c:語彙素読みが「タベル」の場合にマッチします。
#br
|&ref(./himawari_su4a.png,80%);|&ref(./himawari_su4b.png,...
|検索例4a|検索例4b|検索例4c|h
#br
*** 話者ID [#g4ec3357]
- 話者IDをキーとして検索します。
- 検索結果の「キー」欄には,当該の発話IDを持つ発話が検索...
- 文字列の照合には,正規表現(前),正規表現(後)欄で,...
- 検索例
-- 検索例5a:話者IDが「T005_032」を含む場合にマッチします。
-- 検索例5b:話者IDが「T005」で始まる場合にマッチします。
#br
|&ref(./himawari_speaker1a.png,80%);|&ref(./himawari_spea...
|検索例5a|検索例5b|h
#br
**4.3 データの閲覧 [#w506917b]
**4.3.1 会話データベースの閲覧 [#i129a3cc]
- 検索結果の「会話ID」列の値をダブルクリックすることによ...
#br
|&ref(./himawari_conversation_db.png,80%);|
#br
- すべての会話のデータを表示するには,[ツール]⇒[一覧]⇒会...
**4.3.2 話者データベースの閲覧 [#x0dd48ec]
- 検索結果の「話者ID」列の値をダブルクリックすることによ...
#br
|&ref(./himawari_speaker_db.png,80%);|
#br
- すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話...
**4.3.3 動画ファイルの閲覧 [#re78ec3b]
- 検索結果の「性別」列もしくは「年齢」列の値をダブルクリ...
- FishWatchrについては,5章を参照して下さい。
**4.3.4 転記テキストの閲覧 [#ga9b8777]
検索結果(「会話ID」「話者ID」「性別」「年齢」列を除く...
-検索文字列は,赤色で表示されます。
-「/」「|」は,それぞれ短単位,長単位の区切りを表します。
-個々の短単位にマウスカーソルを合わせると,下の図のように...
-ブラウザは,[オプション]⇒[ブラウザ]で選択することができ...
//-- なお,macOSではセキュリティ上,デフォルトの設定ではS...
#br
#ref(./himawari_browse_transcript.png,80%)
#br
**4.4 分析のための機能 [#n5743254]
*** 4.4.1 検索結果の集計 [#y724c185]
- 検索結果に対して,選択した列に含まれる値の頻度を集計し...
-- 列の選択は,選択したい列のセル(どこでもよい)を選択す...
-- 複数の列を選択してもかまいません。
- 選択後,右クリック⇒[統計]を実行すると,集計が実行されま...
#br
- ''例:会話IDごとの頻度を集計する例''
#br
|選択例|実行結果|h
|&ref(./himawari_stat_conv_id1.png,80%);|&ref(./himawari_...
#br
*** 4.4.2 コーパスの基本情報の取得[#w92f463c]
-[ツール]⇒[一覧]⇒[ユーザ入力]により,CEJCの転記テキストに...
- 集計できるタグは,次のとおりです。
|タグ名|説明|付与されている属性例|h
|cejc| 転記テキスト全体に対して付与されている情報|会話ID...
|u |発話に付与されている情報|話者ID,年齢,職業,出身地|
|s |単語(短単位)に付与されている情報|品詞,語彙素,発音|
|l |単語(長単位)に付与されている情報|品詞,語彙素,発音|
- 例1:単語頻度(短単位,品詞別)
-- 第1階層タグをsにし,属性設定(右側のメニュー)で「S品...
-- 「頻度」をチェック
#br
LEFT:
|&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_list...
#br
- 例2:単語頻度(短単位,語彙素別)
-- 第1階層タグをsにし,属性設定(右側のメニュー)で「S活...
-- 「頻度」をチェック
#br
|&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_list...
#br
- 例3:会話データごとの発話数
-- 第1階層タグをcejcにし,属性設定(右側のメニュー)で「...
-- 第2階層タグをuにする。属性設定(右側のメニュー)は「...
-- 「頻度」をチェック
#br
|&ref(./himawari_list_conv1.png,80%);|&ref(./himawari_lis...
#br
- 例4:会話データごとの単語数(短単位)
-- 第1階層タグをcejcにし,属性設定(右側のメニュー)で「...
-- 第2階層タグをsにする。属性設定(右側のメニュー)は「S...
-- 「頻度」をチェック
#br
--(1) まず,会話データごとの各品詞の頻度を計測
//#br
//|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_li...
//#br
--(2) 計測したくない品詞の語を取り除くため,「品詞」列を...
--- ここでは,「himawari_発話末」「形態論情報付与対象外」...
--- 「文字列指定」で次の正規表現を指定(「himawari」「形...
^(?!himawari|形態論).+$
#br
|(1)の計測の設定|(1)の結果|(2)のフィルタ設定|h
|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_list...
#br
--(3) 最後に「会話ID」列の値のどれかを選択し,右クリック⇒...
#br
|&ref(./himawari_list_pos7.png,80%);|
//|フィルタの設定|最終的な集計結果|h
//|&ref(./himawari_list_pos6.png,80%);|&ref(./himawari_li...
#br
* 5.動画の閲覧とアノテーション:FishWatchr [#u6927306]
** 5.1 動画の閲覧 [#s0d837fa]
『ひまわり』の検索結果の「性別」もしくは「年齢」列の値...
FishWatchrの機能のうち,よく使うものを次に挙げておきま...
- 動画の再生,停止,早送り
-- 画面中央の操作パネル(&ref(./fw_control.png,70%);)を...
//-- 画面中央の操作パネル(◀◀,▶,&#...
-- 再生位置は,次の三つの方法で指定することができます。
--- 画面中央のスライダ(下図?)
--- 画面左側のグラフのダブルクリック(グラフの横軸は再生...
--- 発話リストの時間列の値(下図?)のダブルクリック
-- 画面中央の「注記連動」(下図?)をチェックすると,再生...
-- 再生速度は,Ctrl+「.」,Ctrl+「,」で上下します。Ctrl+...
- 画面左上のグラフの使い方
-- 発話の存在を時間軸上にプロットしています。
-- 「表示」メニュー(下図?)で表示対象(「話者」「ラベル...
-- グラフ下部の棒グラフは,起点とする時刻において,前後10...
-- 横方向にドラッグすると,その範囲を詳細に表示することが...
--- 元の範囲に戻すには,グラフ上部の「リセット」ボタンを...
&ref(./cejc_fw2.png,35%);
** 5.2 アノテーション [#k4c05885]
- アノテーションボタン(上図?)を押すと,再生位置に注釈(...
-- 追加した注釈を削除するには,削除する行のいずれかの列で...
-- 「番号」「時間」「コメント」列以外は,ダブルクリックす...
- 既存の発話の「補助情報」列には,追加のコメントを記入す...
- アノテーションボタン,追加する注釈の「注釈者」名は,ウ...
*6.お問い合わせ [#q31d0b9a]
『ひまわり』もしくは本パッケージに関するお問い合わせは...
なお,CECJの仕様やそのデータに関しては,[[『日本語日常...
*7.既知の不具合 [#wda603d0]
** Windows 環境で,Java11より古いJava(JDK)がインストール...
次のいずれかの方法で,対応してください。
-方法1:『ひまわり』を起動するとき,himawari.exe ではな...
-方法2: PC自体にインストールされているJavaをアンインス...
*謝辞 [#w0ad33f2]
全文検索システム『ひまわり』および観察支援システムFishW...
-「ビデオアノテーションを利用した協同型実習活動支援システ...
-「昭和話し言葉コーパス」の構築による話し言葉の経年変化に...
CEJCパッケージ作成にあたっては,小磯花絵氏,西川賢哉氏...
終了行:
//#br
//&color(red){&size(20){本ページは,現在構築中です。};};
#br
#br
RIGHT:パッケージ作成者:山口昌也 (国立国語研究所)
RIGHT:2022-03-31
#br
''目次''
#contents
#br
*1.はじめに [#bbc4fbe7]
[[『日本語日常会話コーパス』:https://www2.ninjal.ac.jp/...
- 全転記テキストの全文検索
- 形態素解析結果(短単位)を利用した検索,形態素解析結果...
- 検索結果からの転記テキスト全体の表示
- 検索結果からの動画ファイルの再生(観察支援システムFishW...
- CEJCに同梱されるメタデータ(会話情報,話者情報)の閲覧
なお,CEJCパッケージは,配布ハードディスクに同梱される...
#br
|BGCOLOR(white):&ref(./cejc_himawari_dane.png,20%);|BGCOL...
|全文検索『ひまわり』での転記テキストの検索|観察支援シス...
#br
*2.動作環境 [#v01d9a07]
CEJCパッケージは,次の環境で動作します。
- Windows (Windows10以降)
- macOS (Webブラウザは,ChromeもしくはFirefoxを推奨)
- その他のOS(Java 11および VLCが動作する環境)
*3.準備 [#g12e5585]
** 3.1 ハードディスクの準備 [#he8a4b3b]
- ''配布されたCEJCのハードディスクを利用する場合''
-- ハードディスクをPCに接続する以外,機器の設定は必要あり...
- ''PC内臓のハードディスクなど,別のディスクを利用したい...
-- 配布ハードディスクの内容を&color(red){すべて};コピーし...
-- コピー時には,フォルダの構成は変更しないで下さい。
//- ''CEJC データ配布サイトのデータを元にハードディスクを...
//-- [[./HD構成方法]]
** 3.2 『ひまわり』などのインストールと起動 [#pe635ec0]
- [[Windows の場合>./Windows]]
- [[macOSの場合>./macOS]]
- [[その他のOSの場合>./others]]
** 3.3 各種ドキュメント [#ub26395b]
本ページでは,CEJCパッケージに固有の事柄について説明し...
- CEJCの[[各種マニュアル>https://www2.ninjal.ac.jp/conver...
- [[『ひまわり』利用者マニュアル>全文検索システム『ひまわ...
- [[FishWatchr利用者マニュアル>観察支援ツール FishWatchr/...
**3.4 検索できることの確認 [#f61920b2]
『ひまわり』が起動したら,検索できるかどうか,確認して...
#ref(./cejc_himawari_gakkou.png,65%)
* 4.転記テキストの検索:『ひまわり』 [#u6548c7e]
** 4.1 検索結果 [#j3d70dc3]
検索結果の各列の説明は,次のとおりです。CEJCマニュアル...
|~列名|~備考|
||450|c
|前文脈|キーの前文脈|
|キー|検索文字列|
|後文脈|キーの後文脈|
|会話ID|キーが出現した会話のID|
|話者ID|キーの先頭文字を含む発話(発話単位)の話者情報|
|話者ラベル|~|
|性別|~|
|年齢|~|
|出身地|~|
//|居住地|話者の居住地|
|職業|~|
|話者間の関係性|~|
|形式|キーの先頭文字を含む会話の情報|
|収録場所|~|
|収録年|~|
|活動|~|
|話者数|~|
|S品詞|キーの先頭文字を含む語(短単位)の情報&br;(長単位...
|S活用型|~|
|S活用形|~|
|S語彙素|~|
|S語彙素読み|~|
|S発音形出現形|~|
|S発音|~|
|S書字形|~|
|Sタグ付き書字形|~|
|S語彙素-2|当該語の2語前の語彙素|
|S語彙素-1|当該語の1語前の語彙素|
|S語彙素1|当該語の1語後の語彙素|
|S語彙素2|当該語の2語後の語彙素|
|開始時刻|当該発話(発話単位)の開始時刻|
|終了時刻|当該発話(発話単位)の終了時刻|
|コア|当該の会話がコアデータの場合は1,それ以外は0|
|コメント|当該発話(発話単位)に付与されているコメント|
|仮名|キーの先頭文字が仮名の一部か否かを表すフラグ&br;仮...
なお,CEJCに付与されている単語の情報は,短単位,長単位...
どちらのコーパスを使用しているかは,『ひまわり』のウィ...
#ref(./cejc_himawari_long.png,80%)
** 4.2 検索対象の詳細 [#ree5188d]
#ref(./cejc_himawari_search_targets.png,left,wrap,around,...
検索文字列欄の左のメニューから,検索対象を選択すること...
#clear
*** 全文,全文(正規表現) [#f9ab4522]
- 転記テキストを全文検索します。ただし,複数の発話(発話...
- 検索結果の「キー」欄には,マッチした文字列が表示されま...
- 全文(正規表現)では,検索文字列に正規表現が利用できます...
- 検索結果として表示される,短単位,発話に関する情報は,...
- 検索例
-- 検索例1a:「国語」で全文検索します。
-- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始...
|&ref(./himawari_zenbun1a.png,80%);|&ref(./himawari_zenbu...
|検索例1a|検索例1b|h
//*** 全文(正規表現,短単位),全文(正規表現,発話) [#jcfd...
//- 短単位,もしくは,発話(発話単位)の区切りを考慮して...
//- 正規表現を使うことができます。ただし,検索速度は「全...
//- 「全文」と同様,検索結果として表示される,短単位,発...
//- 検索例
//-- 検索例2a:発話内に「国語」を含む場合にマッチします。
//-- 検索例2b:短単位が「国」で始まる場合にマッチします。
//-- 検索例2c:発話内に「やっと〜よ」を含む場合にマ...
//#br
//|&ref(./himawari_zenbun_regex1.png,80%);|&ref(./himawar...
//|検索例2a|検索例2b (正規表現「^国.*$」)|検索例2c (正...
//#br
*** 書字形,書字形(タグ付),書字形(正規表現) [#g3a619b1]
- 短単位の書字形,タグ付き書字形で検索します。
-- 書字形,書字形(タグ付)の場合
--- 「検索文字列」欄で指定した文字列で部分一致検索します。
--- 検索結果の「キー」欄には,マッチした語が表示されます。
--- 「検索文字列」欄では正規表現は利用できませんが,「正...
--- 前後文脈は「フィルタ」タブで指定して下さい。
--書字形(正規表現)の場合
--- 「検索文字列」欄で正規表現が使えます。
--- ただし,「書字形」検索よりも低速です。
--- 検索結果の「キー」欄には,マッチした文字列(&color(re...
- 「全文」の場合と異なり,検索結果のキー欄は,短単位で表...
#br
- 検索例(「書字形」「書字形(タグ付)」)
-- 検索例2a:書字形に「国語」を含む場合にマッチします。
-- 検索例2b:書字形が「国語」で始まる場合にマッチします。
-- 検索例2c:書字形が「国語」の場合にマッチします。
#br
|&ref(./himawari_su2a.png,80%);|&ref(./himawari_su2b.png,...
|検索例2a|検索例2b|検索例2c|h
#br
- 検索例(「書字形(正規表現)」)
-- 検索例3a:書字形に「国語」を含む場合にマッチします。
-- 検索例3b:書字形が「国語」で始まる場合にマッチします。
-- 検索例3c:書字形が「国語」の場合にマッチします。
#br
|&ref(./himawari_su3a.png,80%);|&ref(./himawari_su3b.png,...
|検索例3a|検索例3b|検索例3c|h
#br
*** 語彙素,語彙素読み,品詞 [#lc71a256]
- 短単位の語彙素,語彙素読み,品詞で検索します。
- 検索結果の「キー」欄には,マッチした語が表示されます。
- 文字列の照合には,正規表現(前),正規表現(後)欄で,...
- 前後文脈は,「フィルタ」タブで指定して下さい。
#br
- 検索例
-- 検索例4a:語彙素読みに「コクゴ」を含む場合にマッチしま...
-- 検索例4b:語彙素読みが「ゴ」で終わる場合にマッチします。
-- 検索例4c:語彙素読みが「タベル」の場合にマッチします。
#br
|&ref(./himawari_su4a.png,80%);|&ref(./himawari_su4b.png,...
|検索例4a|検索例4b|検索例4c|h
#br
*** 話者ID [#g4ec3357]
- 話者IDをキーとして検索します。
- 検索結果の「キー」欄には,当該の発話IDを持つ発話が検索...
- 文字列の照合には,正規表現(前),正規表現(後)欄で,...
- 検索例
-- 検索例5a:話者IDが「T005_032」を含む場合にマッチします。
-- 検索例5b:話者IDが「T005」で始まる場合にマッチします。
#br
|&ref(./himawari_speaker1a.png,80%);|&ref(./himawari_spea...
|検索例5a|検索例5b|h
#br
**4.3 データの閲覧 [#w506917b]
**4.3.1 会話データベースの閲覧 [#i129a3cc]
- 検索結果の「会話ID」列の値をダブルクリックすることによ...
#br
|&ref(./himawari_conversation_db.png,80%);|
#br
- すべての会話のデータを表示するには,[ツール]⇒[一覧]⇒会...
**4.3.2 話者データベースの閲覧 [#x0dd48ec]
- 検索結果の「話者ID」列の値をダブルクリックすることによ...
#br
|&ref(./himawari_speaker_db.png,80%);|
#br
- すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話...
**4.3.3 動画ファイルの閲覧 [#re78ec3b]
- 検索結果の「性別」列もしくは「年齢」列の値をダブルクリ...
- FishWatchrについては,5章を参照して下さい。
**4.3.4 転記テキストの閲覧 [#ga9b8777]
検索結果(「会話ID」「話者ID」「性別」「年齢」列を除く...
-検索文字列は,赤色で表示されます。
-「/」「|」は,それぞれ短単位,長単位の区切りを表します。
-個々の短単位にマウスカーソルを合わせると,下の図のように...
-ブラウザは,[オプション]⇒[ブラウザ]で選択することができ...
//-- なお,macOSではセキュリティ上,デフォルトの設定ではS...
#br
#ref(./himawari_browse_transcript.png,80%)
#br
**4.4 分析のための機能 [#n5743254]
*** 4.4.1 検索結果の集計 [#y724c185]
- 検索結果に対して,選択した列に含まれる値の頻度を集計し...
-- 列の選択は,選択したい列のセル(どこでもよい)を選択す...
-- 複数の列を選択してもかまいません。
- 選択後,右クリック⇒[統計]を実行すると,集計が実行されま...
#br
- ''例:会話IDごとの頻度を集計する例''
#br
|選択例|実行結果|h
|&ref(./himawari_stat_conv_id1.png,80%);|&ref(./himawari_...
#br
*** 4.4.2 コーパスの基本情報の取得[#w92f463c]
-[ツール]⇒[一覧]⇒[ユーザ入力]により,CEJCの転記テキストに...
- 集計できるタグは,次のとおりです。
|タグ名|説明|付与されている属性例|h
|cejc| 転記テキスト全体に対して付与されている情報|会話ID...
|u |発話に付与されている情報|話者ID,年齢,職業,出身地|
|s |単語(短単位)に付与されている情報|品詞,語彙素,発音|
|l |単語(長単位)に付与されている情報|品詞,語彙素,発音|
- 例1:単語頻度(短単位,品詞別)
-- 第1階層タグをsにし,属性設定(右側のメニュー)で「S品...
-- 「頻度」をチェック
#br
LEFT:
|&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_list...
#br
- 例2:単語頻度(短単位,語彙素別)
-- 第1階層タグをsにし,属性設定(右側のメニュー)で「S活...
-- 「頻度」をチェック
#br
|&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_list...
#br
- 例3:会話データごとの発話数
-- 第1階層タグをcejcにし,属性設定(右側のメニュー)で「...
-- 第2階層タグをuにする。属性設定(右側のメニュー)は「...
-- 「頻度」をチェック
#br
|&ref(./himawari_list_conv1.png,80%);|&ref(./himawari_lis...
#br
- 例4:会話データごとの単語数(短単位)
-- 第1階層タグをcejcにし,属性設定(右側のメニュー)で「...
-- 第2階層タグをsにする。属性設定(右側のメニュー)は「S...
-- 「頻度」をチェック
#br
--(1) まず,会話データごとの各品詞の頻度を計測
//#br
//|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_li...
//#br
--(2) 計測したくない品詞の語を取り除くため,「品詞」列を...
--- ここでは,「himawari_発話末」「形態論情報付与対象外」...
--- 「文字列指定」で次の正規表現を指定(「himawari」「形...
^(?!himawari|形態論).+$
#br
|(1)の計測の設定|(1)の結果|(2)のフィルタ設定|h
|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_list...
#br
--(3) 最後に「会話ID」列の値のどれかを選択し,右クリック⇒...
#br
|&ref(./himawari_list_pos7.png,80%);|
//|フィルタの設定|最終的な集計結果|h
//|&ref(./himawari_list_pos6.png,80%);|&ref(./himawari_li...
#br
* 5.動画の閲覧とアノテーション:FishWatchr [#u6927306]
** 5.1 動画の閲覧 [#s0d837fa]
『ひまわり』の検索結果の「性別」もしくは「年齢」列の値...
FishWatchrの機能のうち,よく使うものを次に挙げておきま...
- 動画の再生,停止,早送り
-- 画面中央の操作パネル(&ref(./fw_control.png,70%);)を...
//-- 画面中央の操作パネル(◀◀,▶,&#...
-- 再生位置は,次の三つの方法で指定することができます。
--- 画面中央のスライダ(下図?)
--- 画面左側のグラフのダブルクリック(グラフの横軸は再生...
--- 発話リストの時間列の値(下図?)のダブルクリック
-- 画面中央の「注記連動」(下図?)をチェックすると,再生...
-- 再生速度は,Ctrl+「.」,Ctrl+「,」で上下します。Ctrl+...
- 画面左上のグラフの使い方
-- 発話の存在を時間軸上にプロットしています。
-- 「表示」メニュー(下図?)で表示対象(「話者」「ラベル...
-- グラフ下部の棒グラフは,起点とする時刻において,前後10...
-- 横方向にドラッグすると,その範囲を詳細に表示することが...
--- 元の範囲に戻すには,グラフ上部の「リセット」ボタンを...
&ref(./cejc_fw2.png,35%);
** 5.2 アノテーション [#k4c05885]
- アノテーションボタン(上図?)を押すと,再生位置に注釈(...
-- 追加した注釈を削除するには,削除する行のいずれかの列で...
-- 「番号」「時間」「コメント」列以外は,ダブルクリックす...
- 既存の発話の「補助情報」列には,追加のコメントを記入す...
- アノテーションボタン,追加する注釈の「注釈者」名は,ウ...
*6.お問い合わせ [#q31d0b9a]
『ひまわり』もしくは本パッケージに関するお問い合わせは...
なお,CECJの仕様やそのデータに関しては,[[『日本語日常...
*7.既知の不具合 [#wda603d0]
** Windows 環境で,Java11より古いJava(JDK)がインストール...
次のいずれかの方法で,対応してください。
-方法1:『ひまわり』を起動するとき,himawari.exe ではな...
-方法2: PC自体にインストールされているJavaをアンインス...
*謝辞 [#w0ad33f2]
全文検索システム『ひまわり』および観察支援システムFishW...
-「ビデオアノテーションを利用した協同型実習活動支援システ...
-「昭和話し言葉コーパス」の構築による話し言葉の経年変化に...
CEJCパッケージ作成にあたっては,小磯花絵氏,西川賢哉氏...
ページ名: