全文検索システム『ひまわり』/『昭和話し言葉コーパス』_old
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){本ページの内容は,古くなっています...
#br
#br
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2019-05-09
#br
''目次''
#contents
#br
*1.はじめに [#bbc4fbe7]
[[『昭和話し言葉コーパス』:https://www2.ninjal.ac.jp/co...
- 全転記テキストの全文検索
//- 形態素解析結果(短単位)を利用した検索,形態素解析結...
- 検索結果からの転記テキスト全体の表示
- 検索結果からの音声ファイルの再生(VLCを利用)
- SSCに同梱されるメタデータ(講演情報,話者情報)の閲覧
なお,SSCパッケージは,配布DVDに同梱される転記テキスト...
//#br
//|BGCOLOR(white):&ref(./cejc_himawari.png,17%);|BGCOLOR(...
//|全文検索『ひまわり』での転記テキストの検索|観察支援シ...
//#br
*2.動作環境 [#v01d9a07]
SSCパッケージは,次の環境で動作します。
- Windows (Windows7以降)
- macOS (Webブラウザは,ChromeもしくはFirefoxを推奨)
- その他(Java および VLCが動作する環境)
*3.準備 [#g12e5585]
** 3.1 使用機器の準備 [#u2134145]
+ 配布DVDの内容を,PCのハードディスクにコピーしてください。
-- コピー時には,フォルダの構成は変更しないで下さい。
+ Windows,macOSを利用している場合は,以上で終了です。
+ Windows,macOS以外のOSを利用している場合,Java,VLCが動...
-- &color(red){各自の環境に合わせて,JavaとVLCをインスト...
--- [[Java>https://adoptopenjdk.net/releases.html]] (Ado...
--- [[VLC>https://www.videolan.org/vlc/]] (VideoLAN Orga...
-- なお,Android,iOSでは,動作しません。
// ** 3.2 各種ドキュメント [#ub26395b]
// 本ページでは,CEJCパッケージに固有の事柄について説明...
// - CEJCの[[各種マニュアル>https://www2.ninjal.ac.jp/con...
// - [[『ひまわり』利用者マニュアル>全文検索システム『ひ...
// - [[FishWatchr利用者マニュアル>観察支援ツール FishWatc...
**3.2 『ひまわり』の起動の確認 [#n7243063]
+ PCにコピーした「Himawari_Showa」フォルダを開いて下さい。
+ 『ひまわり』を実行
-- ''Windowsの場合:'' himawari.exe をダブルクリックし...
#br
#ref(./himawari_showa_folder_win.png,55%)
#br
-- ''macOSの場合:'' Himawari をダブルクリックして下さ...
#br
#ref(./himawari_showa_folder_mac.png,30%)
#br
-- ''その他の場合''
+++ シェルを起動し,カレントディレクトリを「Himawari_Show...
+++ 次のコマンドを実行して下さい。
% java -jar himawari.jar
**3.3 検索できることの確認 [#f61920b2]
『ひまわり』が起動したら,検索できるかどうか,確認して...
#br
#ref(./himawari_search_test.png,65%)
#br
* 4.転記テキストの検索:『ひまわり』 [#u6548c7e]
** 4.1 検索結果 [#j3d70dc3]
検索結果の各列の説明は,次のとおりです。SSCのマニュアル...
|~列名|~備考|
||450|c
|前文脈|キーの前文脈|
|キー|検索文字列|
|後文脈|キーの後文脈|
|ファイルID|キーが出現したファイルのID|
|話者ID|キーの発話者のID|
|話者|当該発話の話者情報|
|性別|~|
|年齢|~|
|出身地|~|
|タイプ|当該ファイルの情報|
|タイトル|~|
|収録日|~|
|開始時刻|当該発話の開始時刻|
|終了時刻|当該発話の終了時刻|
// |職業|~|
// |話者間の関係性|~|
// |品詞|キーの先頭文字を含む語(短単位)の情報|
// |活用型|~|
// |活用形|~|
// |語彙素|~|
// |語彙素読み|~|
// |発音形出現形|~|
// |発音|~|
// |書字形|~|
// |タグ付き書字形|~|
// |語彙素-2|当該語の2語前の語彙素|
// |語彙素-1|当該語の1語前の語彙素|
// |語彙素1|当該語の1語後の語彙素|
// |語彙素2|当該語の2語後の語彙素|
// |開始時刻|当該発話(発話単位)の開始時刻|
// |終了時刻|当該発話(発話単位)の終了時刻|
// |コメント|当該発話(発話単位)に付与されているコメント|
// |仮名|キーの先頭文字が仮名の一部か否かを表すフラグ&br;...
** 4.2 検索対象の詳細 [#ree5188d]
#ref(./himawari_search_target.png,left,around,80%,検索対象)
検索文字列欄の左のメニューから,検索対象を選択すること...
#clear
*** 全文,全文(正規表現) [#f9ab4522]
- 転記テキストを全文検索します。ただし,複数の発話(発話...
- 検索結果の「キー」欄には,マッチした文字列が表示されま...
- 全文(正規表現)では,検索文字列に正規表現が利用できます...
//- 検索結果として表示される,短単位,発話に関する情報は...
// - 検索例
// -- 検索例1a:「国語」で全文検索します。
// -- 検索例1b:「国語」で全文検索し,その後文脈が「の」...
// |&ref(./himawari_zenbun1a.png,80%);|&ref(./himawari_ze...
// |検索例1a|検索例1b|h
*** 話者ID [#f9ab4522]
- 指定した話者IDにマッチ(部分一致)します。
- 検索結果の「キー」欄には,マッチした話者IDの1発話が表示...
//- 文字列照合は,部分一致です。
// *** 書字形,書字形(タグ付),書字形(正規表現) [#g3a619b1]
// - 短単位の書字形,タグ付き書字形で検索します。
// -- 書字形,書字形(タグ付)の場合
// --- 「検索文字列」欄で指定した文字列で部分一致検索しま...
// --- 検索結果の「キー」欄には,マッチした語が表示されま...
// --- 「検索文字列」欄では正規表現は利用できませんが,「...
// --- 前後文脈は「フィルタ」タブで指定して下さい。
// --書字形(正規表現)の場合
// --- 「検索文字列」欄で正規表現が使えます。
// --- ただし,「書字形」検索よりも低速です。
// --- 検索結果の「キー」欄には,マッチした文字列(&color...
// - 「全文」の場合と異なり,検索結果のキー欄は,短単位で...
// #br
// - 検索例(「書字形」「書字形(タグ付)」)
// -- 検索例2a:書字形に「国語」を含む場合にマッチします。
// -- 検索例2b:書字形が「国語」で始まる場合にマッチしま...
// -- 検索例2c:書字形が「国語」の場合にマッチします。
// #br
// |&ref(./himawari_su1a.png,80%);|&ref(./himawari_su2a.p...
// |検索例2a|検索例2b|検索例2c|h
// #br
// - 検索例(「書字形(正規表現)」)
// -- 検索例3a:書字形に「国語」を含む場合にマッチします。
// -- 検索例3b:書字形が「国」で始まる場合にマッチします。
// -- 検索例3c:書字形が「国語」の場合にマッチします。
// #br
// |&ref(./himawari_su7a.png,80%);|&ref(./himawari_su8a.p...
// |検索例3a|検索例3b|検索例3c|h
// #br
// *** 語彙素,語彙素読み,品詞 [#lc71a256]
// - 短単位の語彙素,語彙素読み,品詞で検索します。
// - 検索結果の「キー」欄には,マッチした語が表示されます。
// - 文字列の照合には,正規表現(前),正規表現(後)欄で...
// - 前後文脈は,「フィルタ」タブで指定して下さい。
// #br
// - 検索例
// -- 検索例4a:語彙素読みに「コクゴ」を含む場合にマッチ...
// -- 検索例4b:語彙素読みが「ゴ」で終わる場合にマッチし...
// -- 検索例4c:語彙素読みが「タベル」の場合にマッチしま...
// #br
// |&ref(./himawari_su4a.png,80%);|&ref(./himawari_su5a.p...
// |検索例4a|検索例4b|検索例4c|h
// #br
// *** 話者ID [#g4ec3357]
// - 話者IDをキーとして検索します。
// - 検索結果の「キー」欄には,当該の発話IDを持つ発話が検...
// - 文字列の照合には,正規表現(前),正規表現(後)欄で...
// - 検索例
// -- 検索例5a:話者IDが「T005_032」を含む場合にマッチし...
// -- 検索例5b:話者IDが「T005」で始まる場合にマッチしま...
// #br
// |&ref(./himawari_speaker1a.png,80%);|&ref(./himawari_s...
// |検索例5a|検索例5b|h
// #br
**4.3 データの閲覧 [#w506917b]
**4.3.1 ファイルデータベースの閲覧 [#i129a3cc]
- 検索結果の「ファイルID」列の値をダブルクリックすること...
#br
|&ref(./himawari_file_db.png,80%);|
#br
- すべてのファイルのデータを表示するには,[ツール]⇒[一覧]...
**4.3.2 話者データベースの閲覧 [#x0dd48ec]
- 検索結果の「話者ID」列の値をダブルクリックすることによ...
#br
|&ref(./himawari_speaker_db.png,80%);|
#br
- すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話...
**4.3.3 音声ファイルの再生 [#re78ec3b]
- 検索結果の「話者」「性別」列もしくは「年齢」列の値をダ...
- Windows,macOSの場合,パッケージに同梱されているVLCが使...
**4.3.4 転記テキストの閲覧 [#ga9b8777]
検索結果(「ファイルID」「話者ID」「話者」「性別」「年...
-検索文字列は,赤色で表示されます。
-転記テキスト中で使用されているタグは,次のように表示され...
#br
|タグ名|表示方法|h
|読み|タグ付けされたテキストにルビとして表示|
|転訛|タグ付けされたテキストにルビ(括弧つき)として表示|
|他話者,引用|タグ付けされたテキスト強調表示(ボールド)|
|咳,笑,板書|タグを青色で表示|
|録音途切れ,録音途切れ|~|
|他音声混入,ノイズ混入|~|
|講演開始までのやり取り(転記なし)|~|
|F, D, M|タグ付けされたテキストをそのまま表示|
#br
//-「/」は,短単位の区切りを表します。
// -個々の短単位にマウスカーソルを合わせると,下の図のよ...
-ブラウザは,[オプション]⇒[ブラウザ]で選択することができ...
-- なお,macOSではセキュリティ上,デフォルトの設定ではSaf...
#br
#ref(./himawari_browse_transcript.png,nowrap,70%)
#br
// **4.4 分析のための機能 [#n5743254]
// *** 4.4.1 検索結果の集計 [#y724c185]
// - 検索結果に対して,選択した列に含まれる値の頻度を集計...
// -- 列の選択は,選択したい列のセル(どこでもよい)を選...
// -- 複数の列を選択してもかまいません。
// - 選択後,右クリック⇒[統計]を実行すると,集計が実行さ...
// #br
// - ''例:会話IDごとの頻度を集計する例''
// #br
// |選択例|実行結果|h
// |BGCOLOR(WHITE):&ref(./himawari_stat_conv_id1.png,40%)...
// #br
// *** 4.4.2 コーパスの基本情報の取得[#w92f463c]
// -[ツール]⇒[一覧]⇒[ユーザ入力]により,CEJCの転記テキス...
// - 集計できるタグは,次のとおりです。
// |タグ名|説明|付与されている属性例|h
// |cejc| 転記テキスト全体に対して付与されている情報|会話...
// |u |発話に付与されている情報|話者ID,年齢,職業,出身地|
// |s |単語に付与されている情報|品詞,語彙素,発音|
// - 例1:単語頻度(品詞別)
// -- 第1階層タグをsにし,属性設定(右側のメニュー)で「...
// -- 「頻度」をチェック
// #br
// LEFT:
// |&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_l...
// #br
// - 例2:単語頻度(語彙素別)
// -- 第1階層タグをsにし,属性設定(右側のメニュー)で「...
// -- 「頻度」をチェック
// #br
// |&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_l...
// #br
// - 例3:会話データごとの発話数
// -- 第1階層タグをcejcにし,属性設定(右側のメニュー)...
// -- 第2階層タグをuにする。属性設定(右側のメニュー)は...
// -- 「頻度」をチェック
// #br
// |&ref(./himawari_list_conv1.png,80%);|&ref(./himawari_...
// #br
// - 例4:会話データごとの単語数
// -- 第1階層タグをcejcにし,属性設定(右側のメニュー)...
// -- 第2階層タグをsにする。属性設定(右側のメニュー)は...
// -- 「頻度」をチェック
// #br
// --(1) まず,会話データごとの各品詞の頻度を計測
// //#br
// //|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari...
// //#br
// --(2) 計測したくない品詞の語を取り除くため,「品詞」列...
// --- ここでは,「himawari_発話末」「形態論情報付与対象...
// --- 「文字列指定」で次の正規表現を指定(「himawari」「...
// ^(?!himawari|形態論).+$
// #br
// |(1)の計測の設定|(1)の結果|(2)のフィルタ設定|h
// |&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_l...
// #br
// --(3) 最後に「会話ID」列の値のどれかを選択し,右クリッ...
// #br
// |&ref(./himawari_list_pos7.png,80%);|
// //|フィルタの設定|最終的な集計結果|h
// //|&ref(./himawari_list_pos6.png,80%);|&ref(./himawari...
// #br
// * 5.動画の閲覧とアノテーション:FishWatchr [#u69273...
// ** 5.1 動画の閲覧 [#s0d837fa]
// 『ひまわり』の検索結果の「性別」もしくは「年齢」列の...
// FishWatchrの機能のうち,よく使うものを次に挙げておき...
// - 動画の再生,停止,早送り
// -- 画面中央の操作パネル(&ref(./fw_control.png,70%);)...
// //-- 画面中央の操作パネル(◀◀,▶...
// -- 再生位置は,次の三つの方法で指定することができます。
// --- 画面中央のスライダ(下図?)
// --- 画面左側のグラフのダブルクリック(グラフの横軸は再...
// --- 発話リストの時間列の値(下図?)のダブルクリック
// -- 画面中央の「注記連動」(下図?)をチェックすると,再...
// -- 再生速度は,Ctrl+「.」,Ctrl+「,」で上下します。Ctr...
// - 画面左上のグラフの使い方
// -- 発話の存在を時間軸上にプロットしています。
// -- 「表示」メニュー(下図?)で表示対象(「話者」「ラベ...
// -- グラフ下部の棒グラフは,起点とする時刻において,前...
// -- 横方向にドラッグすると,その範囲を詳細に表示するこ...
// --- 元の範囲に戻すには,グラフ上部の「リセット」ボタン...
// &ref(./cejc_fw2.png,35%);
// ** 5.2 アノテーション [#k4c05885]
// - アノテーションボタン(上図?)を押すと,再生位置に注...
// -- 追加した注釈を削除するには,削除する行のいずれかの...
// -- 「番号」「時間」「コメント」列以外は,ダブルクリッ...
// - 既存の発話の「補助情報」列には,追加のコメントを記入...
// - アノテーションボタン,追加する注釈の「注釈者」名は,...
*5.トラブルシューティング [#d318150a]
- Windows 環境において,メモリ不足関連のエラー(システム...
-- 『ひまわり』FAQの「[[64bit版のJavaを利用する>全文検索...
- Windows 環境において,文字が小さすぎます。
-- 『ひまわり』FAQの「[[『ひまわり』に表示される文字が小...
*6.お問い合わせ [#q31d0b9a]
- SSC本体に関するお問合わせは,showa_corpus [at] ninjal.a...
-『ひまわり』もしくは本パッケージに関するお問い合わせは,...
*謝辞 [#w0ad33f2]
本研究は,国立国語研究所共同研究プロジェクト[[「大規模...
全文検索システム『ひまわり』の作成にあたっては,次のJSP...
-「昭和話し言葉コーパス」の構築による話し言葉の経年変化に...
終了行:
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){本ページの内容は,古くなっています...
#br
#br
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2019-05-09
#br
''目次''
#contents
#br
*1.はじめに [#bbc4fbe7]
[[『昭和話し言葉コーパス』:https://www2.ninjal.ac.jp/co...
- 全転記テキストの全文検索
//- 形態素解析結果(短単位)を利用した検索,形態素解析結...
- 検索結果からの転記テキスト全体の表示
- 検索結果からの音声ファイルの再生(VLCを利用)
- SSCに同梱されるメタデータ(講演情報,話者情報)の閲覧
なお,SSCパッケージは,配布DVDに同梱される転記テキスト...
//#br
//|BGCOLOR(white):&ref(./cejc_himawari.png,17%);|BGCOLOR(...
//|全文検索『ひまわり』での転記テキストの検索|観察支援シ...
//#br
*2.動作環境 [#v01d9a07]
SSCパッケージは,次の環境で動作します。
- Windows (Windows7以降)
- macOS (Webブラウザは,ChromeもしくはFirefoxを推奨)
- その他(Java および VLCが動作する環境)
*3.準備 [#g12e5585]
** 3.1 使用機器の準備 [#u2134145]
+ 配布DVDの内容を,PCのハードディスクにコピーしてください。
-- コピー時には,フォルダの構成は変更しないで下さい。
+ Windows,macOSを利用している場合は,以上で終了です。
+ Windows,macOS以外のOSを利用している場合,Java,VLCが動...
-- &color(red){各自の環境に合わせて,JavaとVLCをインスト...
--- [[Java>https://adoptopenjdk.net/releases.html]] (Ado...
--- [[VLC>https://www.videolan.org/vlc/]] (VideoLAN Orga...
-- なお,Android,iOSでは,動作しません。
// ** 3.2 各種ドキュメント [#ub26395b]
// 本ページでは,CEJCパッケージに固有の事柄について説明...
// - CEJCの[[各種マニュアル>https://www2.ninjal.ac.jp/con...
// - [[『ひまわり』利用者マニュアル>全文検索システム『ひ...
// - [[FishWatchr利用者マニュアル>観察支援ツール FishWatc...
**3.2 『ひまわり』の起動の確認 [#n7243063]
+ PCにコピーした「Himawari_Showa」フォルダを開いて下さい。
+ 『ひまわり』を実行
-- ''Windowsの場合:'' himawari.exe をダブルクリックし...
#br
#ref(./himawari_showa_folder_win.png,55%)
#br
-- ''macOSの場合:'' Himawari をダブルクリックして下さ...
#br
#ref(./himawari_showa_folder_mac.png,30%)
#br
-- ''その他の場合''
+++ シェルを起動し,カレントディレクトリを「Himawari_Show...
+++ 次のコマンドを実行して下さい。
% java -jar himawari.jar
**3.3 検索できることの確認 [#f61920b2]
『ひまわり』が起動したら,検索できるかどうか,確認して...
#br
#ref(./himawari_search_test.png,65%)
#br
* 4.転記テキストの検索:『ひまわり』 [#u6548c7e]
** 4.1 検索結果 [#j3d70dc3]
検索結果の各列の説明は,次のとおりです。SSCのマニュアル...
|~列名|~備考|
||450|c
|前文脈|キーの前文脈|
|キー|検索文字列|
|後文脈|キーの後文脈|
|ファイルID|キーが出現したファイルのID|
|話者ID|キーの発話者のID|
|話者|当該発話の話者情報|
|性別|~|
|年齢|~|
|出身地|~|
|タイプ|当該ファイルの情報|
|タイトル|~|
|収録日|~|
|開始時刻|当該発話の開始時刻|
|終了時刻|当該発話の終了時刻|
// |職業|~|
// |話者間の関係性|~|
// |品詞|キーの先頭文字を含む語(短単位)の情報|
// |活用型|~|
// |活用形|~|
// |語彙素|~|
// |語彙素読み|~|
// |発音形出現形|~|
// |発音|~|
// |書字形|~|
// |タグ付き書字形|~|
// |語彙素-2|当該語の2語前の語彙素|
// |語彙素-1|当該語の1語前の語彙素|
// |語彙素1|当該語の1語後の語彙素|
// |語彙素2|当該語の2語後の語彙素|
// |開始時刻|当該発話(発話単位)の開始時刻|
// |終了時刻|当該発話(発話単位)の終了時刻|
// |コメント|当該発話(発話単位)に付与されているコメント|
// |仮名|キーの先頭文字が仮名の一部か否かを表すフラグ&br;...
** 4.2 検索対象の詳細 [#ree5188d]
#ref(./himawari_search_target.png,left,around,80%,検索対象)
検索文字列欄の左のメニューから,検索対象を選択すること...
#clear
*** 全文,全文(正規表現) [#f9ab4522]
- 転記テキストを全文検索します。ただし,複数の発話(発話...
- 検索結果の「キー」欄には,マッチした文字列が表示されま...
- 全文(正規表現)では,検索文字列に正規表現が利用できます...
//- 検索結果として表示される,短単位,発話に関する情報は...
// - 検索例
// -- 検索例1a:「国語」で全文検索します。
// -- 検索例1b:「国語」で全文検索し,その後文脈が「の」...
// |&ref(./himawari_zenbun1a.png,80%);|&ref(./himawari_ze...
// |検索例1a|検索例1b|h
*** 話者ID [#f9ab4522]
- 指定した話者IDにマッチ(部分一致)します。
- 検索結果の「キー」欄には,マッチした話者IDの1発話が表示...
//- 文字列照合は,部分一致です。
// *** 書字形,書字形(タグ付),書字形(正規表現) [#g3a619b1]
// - 短単位の書字形,タグ付き書字形で検索します。
// -- 書字形,書字形(タグ付)の場合
// --- 「検索文字列」欄で指定した文字列で部分一致検索しま...
// --- 検索結果の「キー」欄には,マッチした語が表示されま...
// --- 「検索文字列」欄では正規表現は利用できませんが,「...
// --- 前後文脈は「フィルタ」タブで指定して下さい。
// --書字形(正規表現)の場合
// --- 「検索文字列」欄で正規表現が使えます。
// --- ただし,「書字形」検索よりも低速です。
// --- 検索結果の「キー」欄には,マッチした文字列(&color...
// - 「全文」の場合と異なり,検索結果のキー欄は,短単位で...
// #br
// - 検索例(「書字形」「書字形(タグ付)」)
// -- 検索例2a:書字形に「国語」を含む場合にマッチします。
// -- 検索例2b:書字形が「国語」で始まる場合にマッチしま...
// -- 検索例2c:書字形が「国語」の場合にマッチします。
// #br
// |&ref(./himawari_su1a.png,80%);|&ref(./himawari_su2a.p...
// |検索例2a|検索例2b|検索例2c|h
// #br
// - 検索例(「書字形(正規表現)」)
// -- 検索例3a:書字形に「国語」を含む場合にマッチします。
// -- 検索例3b:書字形が「国」で始まる場合にマッチします。
// -- 検索例3c:書字形が「国語」の場合にマッチします。
// #br
// |&ref(./himawari_su7a.png,80%);|&ref(./himawari_su8a.p...
// |検索例3a|検索例3b|検索例3c|h
// #br
// *** 語彙素,語彙素読み,品詞 [#lc71a256]
// - 短単位の語彙素,語彙素読み,品詞で検索します。
// - 検索結果の「キー」欄には,マッチした語が表示されます。
// - 文字列の照合には,正規表現(前),正規表現(後)欄で...
// - 前後文脈は,「フィルタ」タブで指定して下さい。
// #br
// - 検索例
// -- 検索例4a:語彙素読みに「コクゴ」を含む場合にマッチ...
// -- 検索例4b:語彙素読みが「ゴ」で終わる場合にマッチし...
// -- 検索例4c:語彙素読みが「タベル」の場合にマッチしま...
// #br
// |&ref(./himawari_su4a.png,80%);|&ref(./himawari_su5a.p...
// |検索例4a|検索例4b|検索例4c|h
// #br
// *** 話者ID [#g4ec3357]
// - 話者IDをキーとして検索します。
// - 検索結果の「キー」欄には,当該の発話IDを持つ発話が検...
// - 文字列の照合には,正規表現(前),正規表現(後)欄で...
// - 検索例
// -- 検索例5a:話者IDが「T005_032」を含む場合にマッチし...
// -- 検索例5b:話者IDが「T005」で始まる場合にマッチしま...
// #br
// |&ref(./himawari_speaker1a.png,80%);|&ref(./himawari_s...
// |検索例5a|検索例5b|h
// #br
**4.3 データの閲覧 [#w506917b]
**4.3.1 ファイルデータベースの閲覧 [#i129a3cc]
- 検索結果の「ファイルID」列の値をダブルクリックすること...
#br
|&ref(./himawari_file_db.png,80%);|
#br
- すべてのファイルのデータを表示するには,[ツール]⇒[一覧]...
**4.3.2 話者データベースの閲覧 [#x0dd48ec]
- 検索結果の「話者ID」列の値をダブルクリックすることによ...
#br
|&ref(./himawari_speaker_db.png,80%);|
#br
- すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話...
**4.3.3 音声ファイルの再生 [#re78ec3b]
- 検索結果の「話者」「性別」列もしくは「年齢」列の値をダ...
- Windows,macOSの場合,パッケージに同梱されているVLCが使...
**4.3.4 転記テキストの閲覧 [#ga9b8777]
検索結果(「ファイルID」「話者ID」「話者」「性別」「年...
-検索文字列は,赤色で表示されます。
-転記テキスト中で使用されているタグは,次のように表示され...
#br
|タグ名|表示方法|h
|読み|タグ付けされたテキストにルビとして表示|
|転訛|タグ付けされたテキストにルビ(括弧つき)として表示|
|他話者,引用|タグ付けされたテキスト強調表示(ボールド)|
|咳,笑,板書|タグを青色で表示|
|録音途切れ,録音途切れ|~|
|他音声混入,ノイズ混入|~|
|講演開始までのやり取り(転記なし)|~|
|F, D, M|タグ付けされたテキストをそのまま表示|
#br
//-「/」は,短単位の区切りを表します。
// -個々の短単位にマウスカーソルを合わせると,下の図のよ...
-ブラウザは,[オプション]⇒[ブラウザ]で選択することができ...
-- なお,macOSではセキュリティ上,デフォルトの設定ではSaf...
#br
#ref(./himawari_browse_transcript.png,nowrap,70%)
#br
// **4.4 分析のための機能 [#n5743254]
// *** 4.4.1 検索結果の集計 [#y724c185]
// - 検索結果に対して,選択した列に含まれる値の頻度を集計...
// -- 列の選択は,選択したい列のセル(どこでもよい)を選...
// -- 複数の列を選択してもかまいません。
// - 選択後,右クリック⇒[統計]を実行すると,集計が実行さ...
// #br
// - ''例:会話IDごとの頻度を集計する例''
// #br
// |選択例|実行結果|h
// |BGCOLOR(WHITE):&ref(./himawari_stat_conv_id1.png,40%)...
// #br
// *** 4.4.2 コーパスの基本情報の取得[#w92f463c]
// -[ツール]⇒[一覧]⇒[ユーザ入力]により,CEJCの転記テキス...
// - 集計できるタグは,次のとおりです。
// |タグ名|説明|付与されている属性例|h
// |cejc| 転記テキスト全体に対して付与されている情報|会話...
// |u |発話に付与されている情報|話者ID,年齢,職業,出身地|
// |s |単語に付与されている情報|品詞,語彙素,発音|
// - 例1:単語頻度(品詞別)
// -- 第1階層タグをsにし,属性設定(右側のメニュー)で「...
// -- 「頻度」をチェック
// #br
// LEFT:
// |&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_l...
// #br
// - 例2:単語頻度(語彙素別)
// -- 第1階層タグをsにし,属性設定(右側のメニュー)で「...
// -- 「頻度」をチェック
// #br
// |&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_l...
// #br
// - 例3:会話データごとの発話数
// -- 第1階層タグをcejcにし,属性設定(右側のメニュー)...
// -- 第2階層タグをuにする。属性設定(右側のメニュー)は...
// -- 「頻度」をチェック
// #br
// |&ref(./himawari_list_conv1.png,80%);|&ref(./himawari_...
// #br
// - 例4:会話データごとの単語数
// -- 第1階層タグをcejcにし,属性設定(右側のメニュー)...
// -- 第2階層タグをsにする。属性設定(右側のメニュー)は...
// -- 「頻度」をチェック
// #br
// --(1) まず,会話データごとの各品詞の頻度を計測
// //#br
// //|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari...
// //#br
// --(2) 計測したくない品詞の語を取り除くため,「品詞」列...
// --- ここでは,「himawari_発話末」「形態論情報付与対象...
// --- 「文字列指定」で次の正規表現を指定(「himawari」「...
// ^(?!himawari|形態論).+$
// #br
// |(1)の計測の設定|(1)の結果|(2)のフィルタ設定|h
// |&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_l...
// #br
// --(3) 最後に「会話ID」列の値のどれかを選択し,右クリッ...
// #br
// |&ref(./himawari_list_pos7.png,80%);|
// //|フィルタの設定|最終的な集計結果|h
// //|&ref(./himawari_list_pos6.png,80%);|&ref(./himawari...
// #br
// * 5.動画の閲覧とアノテーション:FishWatchr [#u69273...
// ** 5.1 動画の閲覧 [#s0d837fa]
// 『ひまわり』の検索結果の「性別」もしくは「年齢」列の...
// FishWatchrの機能のうち,よく使うものを次に挙げておき...
// - 動画の再生,停止,早送り
// -- 画面中央の操作パネル(&ref(./fw_control.png,70%);)...
// //-- 画面中央の操作パネル(◀◀,▶...
// -- 再生位置は,次の三つの方法で指定することができます。
// --- 画面中央のスライダ(下図?)
// --- 画面左側のグラフのダブルクリック(グラフの横軸は再...
// --- 発話リストの時間列の値(下図?)のダブルクリック
// -- 画面中央の「注記連動」(下図?)をチェックすると,再...
// -- 再生速度は,Ctrl+「.」,Ctrl+「,」で上下します。Ctr...
// - 画面左上のグラフの使い方
// -- 発話の存在を時間軸上にプロットしています。
// -- 「表示」メニュー(下図?)で表示対象(「話者」「ラベ...
// -- グラフ下部の棒グラフは,起点とする時刻において,前...
// -- 横方向にドラッグすると,その範囲を詳細に表示するこ...
// --- 元の範囲に戻すには,グラフ上部の「リセット」ボタン...
// &ref(./cejc_fw2.png,35%);
// ** 5.2 アノテーション [#k4c05885]
// - アノテーションボタン(上図?)を押すと,再生位置に注...
// -- 追加した注釈を削除するには,削除する行のいずれかの...
// -- 「番号」「時間」「コメント」列以外は,ダブルクリッ...
// - 既存の発話の「補助情報」列には,追加のコメントを記入...
// - アノテーションボタン,追加する注釈の「注釈者」名は,...
*5.トラブルシューティング [#d318150a]
- Windows 環境において,メモリ不足関連のエラー(システム...
-- 『ひまわり』FAQの「[[64bit版のJavaを利用する>全文検索...
- Windows 環境において,文字が小さすぎます。
-- 『ひまわり』FAQの「[[『ひまわり』に表示される文字が小...
*6.お問い合わせ [#q31d0b9a]
- SSC本体に関するお問合わせは,showa_corpus [at] ninjal.a...
-『ひまわり』もしくは本パッケージに関するお問い合わせは,...
*謝辞 [#w0ad33f2]
本研究は,国立国語研究所共同研究プロジェクト[[「大規模...
全文検索システム『ひまわり』の作成にあたっては,次のJSP...
-「昭和話し言葉コーパス」の構築による話し言葉の経年変化に...
ページ名: