全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
//#br
//&color(red){&size(20){本ページは,現在構築中です。};};
//#br
//#br
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2015-06-01(更新: 2023-10-28)
#br
#contents
*1.はじめに [#bbc4fbe7]
[[『日本語話し言葉コーパス』:https://ccd.ninjal.ac.jp/c...
- 全転記テキストの全文検索
- 形態素解析結果(短単位,長単位)を利用した検索,形態素...
- 検索結果から転記テキスト全体の表示
- 検索結果から音声データの再生
//&color(red){注意:}; すでに,第1〜3刷を購入されている...
*2.インストール [#l4a683f9]
** 第9刷以降 [#eb705b99]
*** Windowsの場合 [#x389cca8]
+ CSJの USB メモリを用意して下さい。
+ Tools/Himawariフォルダを開いてください
+ 「Himawari_CSJ」フォルダを使いやすい場所にコピーしてく...
-- このフォルダの『ひまわり』(ver.1.7.4)には,このあと「m...
-- 約12GB必要です。
-- 最新版の『ひまわり』を使いたい場合は,後述の「macOSの...
*** macOSの場合(WindowsやLinuxにも適用できます) [#r94f2...
+ [[『ひまわり』>../]]をインストールしてください。
-- [[ビデオチュートリアル>https://csd.ninjal.ac.jp/lrc/in...
-- インストールする『ひまわり』アプリの名前は変更せず,デ...
+ CSJの USB メモリを用意して下さい。
+ Tools/Himawariフォルダを開いて,次のファイルがあること...
-- himawari_csj_trans.zip ...『ひまわり』用CSJパッケージ...
-- himawari_csj_sound.zip ...『ひまわり』用CSJパッケージ...
+ 『ひまわり』を起動し,上記のCSJパッケージをインストール...
-- 起動している『ひまわり』にパッケージのファイルをドラッ...
-- 上書きの警告が出る場合がありますが,基本的に上書きで問...
-- 音声ファイルのパッケージは11GB程度あります。&color(red...
** 第8刷まで [#nf4010be]
+ CSJの USB メモリを用意して下さい。
-- &color(red){macOSの場合の注意:}; CSJ更新時に,『ひま...
--- Windowsなど別のOSでzipファイルをダウンロードし,ネッ...
--- もしくは,次のコマンドを実行後に展開
$ xattr -c ダウンロードしたzipファイル
+ TOOL フォルダの中にある Himawari フォルダを使いやすい場...
+ &color(blue){(任意)}; 音声データの再生機能([[3.7節参...
++ 次のフォルダに含まれる wav ファイルを,コピーした Hima...
--- WAV/core
--- WAV/noncore
++ [[VLC media player>https://www.videolan.org/]] をイン...
+ 以上でインストールは終了です。
//+ &color(red){(注意・お願い)}; CSJ第4刷のパッケージに...
//++ [[『ひまわり』(ver.1.5系列)の最新版>全文検索システム...
//++ 解凍したフォルダの中から,次のファイルを探し,(CSJ...
//--- himawari.exe
//--- himawari_debug.exe
//--- himawari.jar
*3.使用方法 [#g12e5585]
**3.1 準備 [#j91ae093]
ここでは,『日本語話し言葉コーパス』データに固有の事柄...
//なお,閲覧には,Adobe 社の Adobe Reader が必要です。Ado...
-「[[形態論情報の概要>https://ccd.ninjal.ac.jp/csj/manu-f...
-「[[短単位・長単位データマニュアル>https://ccd.ninjal.ac...
-「[[節単位認定>https://ccd.ninjal.ac.jp/csj/manu-f/claus...
-「[[転記テキスト>https://ccd.ninjal.ac.jp/csj/manu-f/tra...
- [[『日本語話し言葉コーパス』の概観>https://ccd.ninjal.a...
-「[[音声収録作業の概要>https://ccd.ninjal.ac.jp/csj/manu...
**3.2 『ひまわり』の起動 [#n7243063]
*** 第9刷以降 [#zc722523]
- Windowsの場合は,コピーした「Himawari_CSJ」フォルダを開...
- macOSは,インストールした『ひまわり』をダブルクリックし...
//(本節は,第8刷用です。第9刷以降は[[ビデオチュートリ...
*** 第8刷まで [#p7f1883a]
- [[マニュアル(2.3節)>全文検索システム『ひまわり』/利用者...
-『ひまわり』を起動すると,すぐに『日本語話し言葉コーパス...
// 『日本語話し言葉コーパス』用の設定ファイルは,config....
**3.3 サブコーパスの選択 [#mbff38f8]
[[コーパス選択機能>全文検索システム『ひまわり』/利用者...
**3.4 検索対象の詳細 [#ree5188d]
#ref(./search_target.png,right,around,80%,検索対象);
次の項目を対象として,検索することができます。利用者マ...
#clear
*** 全文 [#f9ab4522]
- 形態論情報を考慮せずに,全文検索します。なお,検索結果...
- 検索例
-- 検索例1a:「国語」で全文検索します。
-- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始...
#br
|&ref(./full_text_simple.png,80%);|&ref(./full_text_fc.pn...
|検索例1a|検索例1b|h
*** 出現形(短単位),出現形(長単位) [#lc71a256]
-短単位,長単位の出現形で検索します。文字列の照合には,部...
- 検索例
-- 検索例2a:出現形(長単位)に「国語」を含む場合にマッチし...
-- 検索例2b:出現形(長単位)が「国語」の場合にマッチします。
-- 検索例2c:出現形(長単位)が「国語」を含み,その末尾が「...
#br
|&ref(./search_example1.png,80%);|&ref(./search_example2....
|検索例2a|検索例2b|検索例2c|h
*** 品詞(短単位),品詞(長単位) [#h215870f]
- 品詞をキーとして検索します。文字列の照合には,部分的に...
- 検索例
-- 検索例3a:出現形(短単位)に「名詞」を含む場合にマッチし...
-- 検索例3b:出現形(短単位)が「名詞」の場合にマッチします。
#br
|&ref(./pos_simple.png,80%);|&ref(./pos_pf.png,80%);|
|検索例3a|検索例3b|h
*** 代表形(短単位),代表形(長単位) [#d74fe325]
- 代表形をキーとして検索します。文字列の照合には,部分的...
- 検索例
-- 検索例4a:代表形(長単位)に「タベル」を含む場合にマッチ...
-- 検索例4b:代表形(長単位)が「ゼン」で始まる場合にマッチ...
-- 検索例4c:代表形(長単位)が「ゴ」で終わる場合にマッチし...
#br
|&ref(./daihyo_simple.png,80%);|&ref(./daihyo_p.png,80%);...
|検索例4a|検索例4b|検索例4c|h
*** 節境界 [#g4ec3357]
- 節境界情報をキーとして検索します。文字列の照合には,正...
- 当該の節境界情報を持つ短単位が検索されます。
- 検索例
-- 検索例5a:節境界が「文末」の場合にマッチします。
-- 検索例5b:節境界が「並列節」を含む場合にマッチします。
#br
|&ref(./setu_pf.png,80%);|&ref(./setu_simple.png,80%);|
|検索例5a|検索例5b|h
**3.5 検索結果 [#oe2c0ff8]
検索結果には,次の情報が含まれます。「[[短単位・長単位...
|~列名|~備考|
||450|c
|前文脈||
|出現形(検索文字列とマッチした文字列など)||
|後文脈||
|代表表記|短単位の情報&br;&br;「活用型」「その他1」〜「そ...
|代表形|~|
|品詞|~|
|活用形|~|
|活用型|~|
|その他1|~|
|その他2|~|
|その他3|~|
|発音形|~|
|代表表記(長)|長単位の情報|
|代表形(長)|~|
|品詞(長)|~|
|活用形(長)|~|
|活用型(長)|~|
|その他1(長)|~|
|その他2(長)|~|
|その他3(長)|~|
|出現形(後)|後続する短単位の情報|
|代表形(後)|~|
|代表表記(後)|~|
|品詞(後)|~|
|その他1(後)|~|
|出現形(前)|前接する短単位の情報|
|代表形(前)|~|
|代表表記(前)|~|
|品詞(前)|~|
|その他1(前)|~|
|講演ID|当該の転記基本単位の情報|
|開始時間|~|
|終了時間|~|
|コア|当該の転記テキストがコアに含まれるか否かを表すフラ...
//|CH||
**3.6 転記テキストの閲覧 [#ga9b8777]
検索結果(「品詞」「活用形」「発音形」欄を除く)をダブ...
-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は,赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると,下の図のように...
-長単位の区切り(|)にマウスカーソルを合わせると,長単位の...
-節境界($)にマウスカーソルを合わせると,節境界の情報が表...
#br
#ref(./csj_manual_sample_browse.png)
#br
**3.7 音声データの再生 [#u6927306]
インストール時に音声データを『ひまわり』にインストール...
*** 第9刷 [#h8fc1718]
- 『ひまわり』内蔵プレイヤーの場合
-- 「品詞」もしくは「発音形」欄をダブルクリックしてくださ...
-- 当該の転記基本単位から再生します。再生位置は,プレイヤ...
- VLCを利用する場合
++[[VLC>https://www.videolan.org/vlc/]]をインストールして...
++USBメモリの次のフォルダの wav ファイルを確認してくださ...
--- WAV/core
--- WAV/noncore
++「soundfiles_wav」フォルダを次の場所に作成し,上記フォ...
--- Windowsの場合: 「Himawari_CSJ」フォルダの中のCorpora...
--- macOSの場合: (「アプリケーション」フォルダ中の)『...
++検索結果の「活用形」欄をダブルクリックすると,VLCでwav...
*** 第8刷 [#c0a07968]
- 『ひまわり』内蔵プレイヤーの場合
-- 「品詞」もしくは「発音形」欄をダブルクリックしてくださ...
-- 当該の転記基本単位のみ再生します。前後を再生するには,...
- VLC(事前に要インストール)の場合
--「活用形」欄をダブルクリックしてください。
*** 第7刷まで(VLC要インストール) [#d5213e9e]
- Windows の場合: 「品詞」欄
- Mac の場合: 「活用形」欄
- Linux の場合: 「品詞」欄
-- ただし,Linux の場合は,設定ファイル(config.xml,また...
+++ "<access_command1" で始まる行を削除して下さい。
+++ "<access_command3" で始まる行を探し,"<access_command...
終了行:
[[全文検索システム『ひまわり』]]
//#br
//&color(red){&size(20){本ページは,現在構築中です。};};
//#br
//#br
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2015-06-01(更新: 2023-10-28)
#br
#contents
*1.はじめに [#bbc4fbe7]
[[『日本語話し言葉コーパス』:https://ccd.ninjal.ac.jp/c...
- 全転記テキストの全文検索
- 形態素解析結果(短単位,長単位)を利用した検索,形態素...
- 検索結果から転記テキスト全体の表示
- 検索結果から音声データの再生
//&color(red){注意:}; すでに,第1〜3刷を購入されている...
*2.インストール [#l4a683f9]
** 第9刷以降 [#eb705b99]
*** Windowsの場合 [#x389cca8]
+ CSJの USB メモリを用意して下さい。
+ Tools/Himawariフォルダを開いてください
+ 「Himawari_CSJ」フォルダを使いやすい場所にコピーしてく...
-- このフォルダの『ひまわり』(ver.1.7.4)には,このあと「m...
-- 約12GB必要です。
-- 最新版の『ひまわり』を使いたい場合は,後述の「macOSの...
*** macOSの場合(WindowsやLinuxにも適用できます) [#r94f2...
+ [[『ひまわり』>../]]をインストールしてください。
-- [[ビデオチュートリアル>https://csd.ninjal.ac.jp/lrc/in...
-- インストールする『ひまわり』アプリの名前は変更せず,デ...
+ CSJの USB メモリを用意して下さい。
+ Tools/Himawariフォルダを開いて,次のファイルがあること...
-- himawari_csj_trans.zip ...『ひまわり』用CSJパッケージ...
-- himawari_csj_sound.zip ...『ひまわり』用CSJパッケージ...
+ 『ひまわり』を起動し,上記のCSJパッケージをインストール...
-- 起動している『ひまわり』にパッケージのファイルをドラッ...
-- 上書きの警告が出る場合がありますが,基本的に上書きで問...
-- 音声ファイルのパッケージは11GB程度あります。&color(red...
** 第8刷まで [#nf4010be]
+ CSJの USB メモリを用意して下さい。
-- &color(red){macOSの場合の注意:}; CSJ更新時に,『ひま...
--- Windowsなど別のOSでzipファイルをダウンロードし,ネッ...
--- もしくは,次のコマンドを実行後に展開
$ xattr -c ダウンロードしたzipファイル
+ TOOL フォルダの中にある Himawari フォルダを使いやすい場...
+ &color(blue){(任意)}; 音声データの再生機能([[3.7節参...
++ 次のフォルダに含まれる wav ファイルを,コピーした Hima...
--- WAV/core
--- WAV/noncore
++ [[VLC media player>https://www.videolan.org/]] をイン...
+ 以上でインストールは終了です。
//+ &color(red){(注意・お願い)}; CSJ第4刷のパッケージに...
//++ [[『ひまわり』(ver.1.5系列)の最新版>全文検索システム...
//++ 解凍したフォルダの中から,次のファイルを探し,(CSJ...
//--- himawari.exe
//--- himawari_debug.exe
//--- himawari.jar
*3.使用方法 [#g12e5585]
**3.1 準備 [#j91ae093]
ここでは,『日本語話し言葉コーパス』データに固有の事柄...
//なお,閲覧には,Adobe 社の Adobe Reader が必要です。Ado...
-「[[形態論情報の概要>https://ccd.ninjal.ac.jp/csj/manu-f...
-「[[短単位・長単位データマニュアル>https://ccd.ninjal.ac...
-「[[節単位認定>https://ccd.ninjal.ac.jp/csj/manu-f/claus...
-「[[転記テキスト>https://ccd.ninjal.ac.jp/csj/manu-f/tra...
- [[『日本語話し言葉コーパス』の概観>https://ccd.ninjal.a...
-「[[音声収録作業の概要>https://ccd.ninjal.ac.jp/csj/manu...
**3.2 『ひまわり』の起動 [#n7243063]
*** 第9刷以降 [#zc722523]
- Windowsの場合は,コピーした「Himawari_CSJ」フォルダを開...
- macOSは,インストールした『ひまわり』をダブルクリックし...
//(本節は,第8刷用です。第9刷以降は[[ビデオチュートリ...
*** 第8刷まで [#p7f1883a]
- [[マニュアル(2.3節)>全文検索システム『ひまわり』/利用者...
-『ひまわり』を起動すると,すぐに『日本語話し言葉コーパス...
// 『日本語話し言葉コーパス』用の設定ファイルは,config....
**3.3 サブコーパスの選択 [#mbff38f8]
[[コーパス選択機能>全文検索システム『ひまわり』/利用者...
**3.4 検索対象の詳細 [#ree5188d]
#ref(./search_target.png,right,around,80%,検索対象);
次の項目を対象として,検索することができます。利用者マ...
#clear
*** 全文 [#f9ab4522]
- 形態論情報を考慮せずに,全文検索します。なお,検索結果...
- 検索例
-- 検索例1a:「国語」で全文検索します。
-- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始...
#br
|&ref(./full_text_simple.png,80%);|&ref(./full_text_fc.pn...
|検索例1a|検索例1b|h
*** 出現形(短単位),出現形(長単位) [#lc71a256]
-短単位,長単位の出現形で検索します。文字列の照合には,部...
- 検索例
-- 検索例2a:出現形(長単位)に「国語」を含む場合にマッチし...
-- 検索例2b:出現形(長単位)が「国語」の場合にマッチします。
-- 検索例2c:出現形(長単位)が「国語」を含み,その末尾が「...
#br
|&ref(./search_example1.png,80%);|&ref(./search_example2....
|検索例2a|検索例2b|検索例2c|h
*** 品詞(短単位),品詞(長単位) [#h215870f]
- 品詞をキーとして検索します。文字列の照合には,部分的に...
- 検索例
-- 検索例3a:出現形(短単位)に「名詞」を含む場合にマッチし...
-- 検索例3b:出現形(短単位)が「名詞」の場合にマッチします。
#br
|&ref(./pos_simple.png,80%);|&ref(./pos_pf.png,80%);|
|検索例3a|検索例3b|h
*** 代表形(短単位),代表形(長単位) [#d74fe325]
- 代表形をキーとして検索します。文字列の照合には,部分的...
- 検索例
-- 検索例4a:代表形(長単位)に「タベル」を含む場合にマッチ...
-- 検索例4b:代表形(長単位)が「ゼン」で始まる場合にマッチ...
-- 検索例4c:代表形(長単位)が「ゴ」で終わる場合にマッチし...
#br
|&ref(./daihyo_simple.png,80%);|&ref(./daihyo_p.png,80%);...
|検索例4a|検索例4b|検索例4c|h
*** 節境界 [#g4ec3357]
- 節境界情報をキーとして検索します。文字列の照合には,正...
- 当該の節境界情報を持つ短単位が検索されます。
- 検索例
-- 検索例5a:節境界が「文末」の場合にマッチします。
-- 検索例5b:節境界が「並列節」を含む場合にマッチします。
#br
|&ref(./setu_pf.png,80%);|&ref(./setu_simple.png,80%);|
|検索例5a|検索例5b|h
**3.5 検索結果 [#oe2c0ff8]
検索結果には,次の情報が含まれます。「[[短単位・長単位...
|~列名|~備考|
||450|c
|前文脈||
|出現形(検索文字列とマッチした文字列など)||
|後文脈||
|代表表記|短単位の情報&br;&br;「活用型」「その他1」〜「そ...
|代表形|~|
|品詞|~|
|活用形|~|
|活用型|~|
|その他1|~|
|その他2|~|
|その他3|~|
|発音形|~|
|代表表記(長)|長単位の情報|
|代表形(長)|~|
|品詞(長)|~|
|活用形(長)|~|
|活用型(長)|~|
|その他1(長)|~|
|その他2(長)|~|
|その他3(長)|~|
|出現形(後)|後続する短単位の情報|
|代表形(後)|~|
|代表表記(後)|~|
|品詞(後)|~|
|その他1(後)|~|
|出現形(前)|前接する短単位の情報|
|代表形(前)|~|
|代表表記(前)|~|
|品詞(前)|~|
|その他1(前)|~|
|講演ID|当該の転記基本単位の情報|
|開始時間|~|
|終了時間|~|
|コア|当該の転記テキストがコアに含まれるか否かを表すフラ...
//|CH||
**3.6 転記テキストの閲覧 [#ga9b8777]
検索結果(「品詞」「活用形」「発音形」欄を除く)をダブ...
-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は,赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると,下の図のように...
-長単位の区切り(|)にマウスカーソルを合わせると,長単位の...
-節境界($)にマウスカーソルを合わせると,節境界の情報が表...
#br
#ref(./csj_manual_sample_browse.png)
#br
**3.7 音声データの再生 [#u6927306]
インストール時に音声データを『ひまわり』にインストール...
*** 第9刷 [#h8fc1718]
- 『ひまわり』内蔵プレイヤーの場合
-- 「品詞」もしくは「発音形」欄をダブルクリックしてくださ...
-- 当該の転記基本単位から再生します。再生位置は,プレイヤ...
- VLCを利用する場合
++[[VLC>https://www.videolan.org/vlc/]]をインストールして...
++USBメモリの次のフォルダの wav ファイルを確認してくださ...
--- WAV/core
--- WAV/noncore
++「soundfiles_wav」フォルダを次の場所に作成し,上記フォ...
--- Windowsの場合: 「Himawari_CSJ」フォルダの中のCorpora...
--- macOSの場合: (「アプリケーション」フォルダ中の)『...
++検索結果の「活用形」欄をダブルクリックすると,VLCでwav...
*** 第8刷 [#c0a07968]
- 『ひまわり』内蔵プレイヤーの場合
-- 「品詞」もしくは「発音形」欄をダブルクリックしてくださ...
-- 当該の転記基本単位のみ再生します。前後を再生するには,...
- VLC(事前に要インストール)の場合
--「活用形」欄をダブルクリックしてください。
*** 第7刷まで(VLC要インストール) [#d5213e9e]
- Windows の場合: 「品詞」欄
- Mac の場合: 「活用形」欄
- Linux の場合: 「品詞」欄
-- ただし,Linux の場合は,設定ファイル(config.xml,また...
+++ "<access_command1" で始まる行を削除して下さい。
+++ "<access_command3" で始まる行を探し,"<access_command...
ページ名: