[PukiWiki]

全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法 の変更点

Top/全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法 へ行く。
  • 全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法 の差分を削除

#author("2023-11-13T16:36:24+09:00","default:rd","rd")
#author("2023-11-22T21:33:53+09:00;2023-11-13T16:36:24+09:00","default:rd","rd")
[[全文検索システム『ひまわり』]]

//#br
//&color(red){&size(20){本ページは,現在構築中です。};};
//#br
//#br

RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2015-06-01(更新: 2023-10-28)
#br

#contents

*1.はじめに [#bbc4fbe7]
 [[『日本語話し言葉コーパス』:https://ccd.ninjal.ac.jp/csj/]](CSJ)は,第4刷から『ひまわり』用CSJパッケージを同梱して,配布されています。本ページでは,『ひまわり』用CSJパッケージの利用方法を説明します。本パッケージの特徴は,次のとおりです。

- 全転記テキストの全文検索
- 形態素解析結果(短単位,長単位)を利用した検索,形態素解析結果の表示
- 検索結果から転記テキスト全体の表示
- 検索結果から音声データの再生

//&color(red){注意:}; すでに,第1〜3刷を購入されている方は,無料で差分ファイルが提供されますので,入手をご検討下さい。詳しくは,[[申し込み手順のページ>https://ccd.ninjal.ac.jp/csj/subscription/#app2]]をご覧ください。また,これまで『ひまわり』にインポートする方法を提供していましたが,第4刷同梱のパッケージよりも機能は劣るため,[[現在サポートを停止しています>全文検索システム『ひまわり』/保守されていないコンテンツ]]。


*2.インストール [#l4a683f9]
** 第9刷以降 [#eb705b99]
*** Windowsの場合 [#x389cca8]
+ CSJの USB メモリを用意して下さい。
+ Tools/Himawariフォルダを開いてください
+ 「Himawari_CSJ」フォルダを使いやすい場所にコピーしてください。
-- このフォルダの『ひまわり』(ver.1.7.4)には,このあと「macOSの場合」で説明する二つのパッケージがインストール済みです。すぐに転記テキストの検索と音声データの再生が行えます。
-- 約12GB必要です。
-- 最新版の『ひまわり』を使いたい場合は,後述の「macOSの場合」の方法でインストールしてください。

*** macOSの場合(WindowsやLinuxでも同じです) [#r94f2a65]
*** macOSの場合(WindowsやLinuxにも適用できます) [#r94f2a65]
+ [[『ひまわり』>../]]をインストールしてください。
-- [[ビデオチュートリアル>https://csd.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9/%A5%D3%A5%C7%A5%AA%A5%C1%A5%E5%A1%BC%A5%C8%A5%EA%A5%A2%A5%EB#m4d747d1]]
-- インストールする『ひまわり』アプリの名前は変更せず,デフォルトのまま(Himawari)使用してください(macOSの場合)。
+ CSJの USB メモリを用意して下さい。
+ Tools/Himawariフォルダを開いて,次のファイルがあることを確認してください。
-- himawari_csj_trans.zip ...『ひまわり』用CSJパッケージ(転記テキスト)
-- himawari_csj_sound.zip ...『ひまわり』用CSJパッケージ(音声ファイル[ogg形式],転記テキストの検索のみであれば不要)
+ 『ひまわり』を起動し,上記のCSJパッケージをインストールしてください。
-- 起動している『ひまわり』にパッケージのファイルをドラッグ&ドロップすると,パッケージのインストールが始まります。
-- 上書きの警告が出る場合がありますが,基本的に上書きで問題ありません(注意するのはインストールしたファイルを手動で変更しているときのみです)。
-- 音声ファイルのパッケージは11GB程度あります。&color(red){可能ならば,配布USBメモリから,PC本体などの高速なディスクにコピーしてからインストールすることをおすすめします。};


** 第8刷まで [#nf4010be]
+ CSJの USB メモリを用意して下さい。
-- &color(red){macOSの場合の注意:}; CSJ更新時に,『ひまわり』の差分ファイル(zip形式)を配布サイトからダウンロードした場合は,次のいずれかの対応が必要です(OSのセキュリティ強化のため)。
--- Windowsなど別のOSでzipファイルをダウンロードし,ネットワークを介さないでmacにコピー(USBメモリなど)してからzipファイルを展開
--- もしくは,次のコマンドを実行後に展開
 $ xattr -c ダウンロードしたzipファイル
+ TOOL フォルダの中にある Himawari フォルダを使いやすい場所にコピーして下さい。
+ &color(blue){(任意)}; 音声データの再生機能([[3.7節参照>#u6927306]])を利用する場合
++ 次のフォルダに含まれる wav ファイルを,コピーした Himawari フォルダの中の Corpora/CSJ/soundfiles フォルダにコピーして下さい。
--- WAV/core
--- WAV/noncore
++ [[VLC media player>https://www.videolan.org/]] をインストールして下さい。なお,第8刷では『ひまわり』内蔵プレイヤーも利用できます(その場合,VLCのインストールは不要)。
+ 以上でインストールは終了です。
//+ &color(red){(注意・お願い)}; CSJ第4刷のパッケージに収録されている『ひまわり』(ver.1.5.1)には不具合がありました。以下のとおり,更新をお願いします。第5刷では修正されています。
//++ [[『ひまわり』(ver.1.5系列)の最新版>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.5]]をダウンロードし,解凍して下さい。
//++ 解凍したフォルダの中から,次のファイルを探し,(CSJ用の『ひまわり』の)インストール先の Himawari フォルダに上書きコピーして下さい。
//--- himawari.exe
//--- himawari_debug.exe
//--- himawari.jar



*3.使用方法 [#g12e5585]
**3.1 準備 [#j91ae093]
 ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]や[[ビデオチュートリアル>https://csd.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9/%A5%D3%A5%C7%A5%AA%A5%C1%A5%E5%A1%BC%A5%C8%A5%EA%A5%A2%A5%EB]]をご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。
//なお,閲覧には,Adobe 社の Adobe Reader が必要です。Adobe 社の [[Web ページ:https://www.adobe.co.jp/products/acrobat/readstep2.html]]で無償配布しています。

-「[[形態論情報の概要>https://ccd.ninjal.ac.jp/csj/manu-f/pos.pdf]]」
-「[[短単位・長単位データマニュアル>https://ccd.ninjal.ac.jp/csj/manu-f/wdb.pdf]]」の3.2 節
-「[[節単位認定>https://ccd.ninjal.ac.jp/csj/manu-f/clause.pdf]]」
-「[[転記テキスト>https://ccd.ninjal.ac.jp/csj/manu-f/transcription.pdf]]」
- [[『日本語話し言葉コーパス』の概観>https://ccd.ninjal.ac.jp/csj/manu-f/overview.pdf]]
-「[[音声収録作業の概要>https://ccd.ninjal.ac.jp/csj/manu-f/recording.pdf]]」

**3.2 『ひまわり』の起動 [#n7243063]
*** 第9刷以降 [#zc722523]
- Windowsの場合は,コピーした「Himawari_CSJ」フォルダを開いて,『ひまわり』のアイコン(himawari.exe)をダブルクリックしてください。
- macOSは,インストールした『ひまわり』をダブルクリックしてください。
//(本節は,第8刷用です。第9刷以降は[[ビデオチュートリアル>https://csd.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9/%A5%D3%A5%C7%A5%AA%A5%C1%A5%E5%A1%BC%A5%C8%A5%EA%A5%A2%A5%EB#m4d747d1]]を参照してください)

*** 第8刷まで [#p7f1883a]
- [[マニュアル(2.3節)>全文検索システム『ひまわり』/利用者マニュアル/1_7/2.インストール#k55bc9ed]]を参照して,『ひまわり』を起動して下さい。なお,macOSの場合は,コピーした Himawari フォルダ内の Himawari を利用してください。
-『ひまわり』を起動すると,すぐに『日本語話し言葉コーパス』が検索対象となります。

// 『日本語話し言葉コーパス』用の設定ファイルは,config.xml (config_csj_all.xml と同一) です。このファイルを[ファイル]→[新規]で読み込むと,『日本語話し言葉コーパス』が検索対象になります。

**3.3 サブコーパスの選択 [#mbff38f8]
 [[コーパス選択機能>全文検索システム『ひまわり』/利用者マニュアル/1_7/4.詳細な検索を行う#o787f26d]]を用いて,サブコーパスを選択します。なお,サブコーパス名の略号(例:「A01」)については,[[『日本語話し言葉コーパス』の概観>https://ccd.ninjal.ac.jp/csj/manu-f/overview.pdf]]の「2.8 ファイルの命名」,および,[[音声収録作業の概要>https://ccd.ninjal.ac.jp/csj/manu-f/overview.pdf]]をご覧ください。

**3.4 検索対象の詳細 [#ree5188d]
#ref(./search_target.png,right,around,80%,検索対象);
 次の項目を対象として,検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_6/4.詳細な検索を行う]]もあわせてご覧ください。
#clear


*** 全文 [#f9ab4522]
- 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位・長単位に関する情報は,検索文字列の先頭の文字列を内部に含む単位のものです。
- 検索例
-- 検索例1a:「国語」で全文検索します。
-- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
#br
|&ref(./full_text_simple.png,80%);|&ref(./full_text_fc.png,80%);|
|検索例1a|検索例1b|h



*** 出現形(短単位),出現形(長単位) [#lc71a256]
-短単位,長単位の出現形で検索します。文字列の照合には,部分的に正規表現を使うことができます。
- 検索例
-- 検索例2a:出現形(長単位)に「国語」を含む場合にマッチします。
-- 検索例2b:出現形(長単位)が「国語」の場合にマッチします。
-- 検索例2c:出現形(長単位)が「国語」を含み,その末尾が「所」の場合にマッチします。
#br
|&ref(./search_example1.png,80%);|&ref(./search_example2.png,80%);|&ref(./search_example3.png,80%);|
|検索例2a|検索例2b|検索例2c|h

*** 品詞(短単位),品詞(長単位) [#h215870f]
- 品詞をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。
- 検索例
-- 検索例3a:出現形(短単位)に「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。
-- 検索例3b:出現形(短単位)が「名詞」の場合にマッチします。
#br
|&ref(./pos_simple.png,80%);|&ref(./pos_pf.png,80%);|
|検索例3a|検索例3b|h

*** 代表形(短単位),代表形(長単位) [#d74fe325]
- 代表形をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。
- 検索例
-- 検索例4a:代表形(長単位)に「タベル」を含む場合にマッチします。
-- 検索例4b:代表形(長単位)が「ゼン」で始まる場合にマッチします。
-- 検索例4c:代表形(長単位)が「ゴ」で終わる場合にマッチします。
#br
|&ref(./daihyo_simple.png,80%);|&ref(./daihyo_p.png,80%);|&ref(./daihyo_pf.png,80%);|
|検索例4a|検索例4b|検索例4c|h




*** 節境界 [#g4ec3357]
- 節境界情報をキーとして検索します。文字列の照合には,正規表現を使うことができます。
- 当該の節境界情報を持つ短単位が検索されます。
- 検索例
-- 検索例5a:節境界が「文末」の場合にマッチします。
-- 検索例5b:節境界が「並列節」を含む場合にマッチします。
#br
|&ref(./setu_pf.png,80%);|&ref(./setu_simple.png,80%);|
|検索例5a|検索例5b|h


**3.5 検索結果 [#oe2c0ff8]

 検索結果には,次の情報が含まれます。「[[短単位・長単位データマニュアル>https://ccd.ninjal.ac.jp/csj/manu-f/wdb.pdf]]」の3.2節も合わせて参照して下さい。


|~列名|~備考|
||450|c
|前文脈||
|出現形(検索文字列とマッチした文字列など)||
|後文脈||
|代表表記|短単位の情報&br;&br;「活用型」「その他1」〜「その他3」は,短単位・長単位データマニュアル」の「活用の種類」,「その他の情報1」〜「その他の情報3」に対応|
|代表形|~|
|品詞|~|
|活用形|~|
|活用型|~|
|その他1|~|
|その他2|~|
|その他3|~|
|発音形|~|
|代表表記(長)|長単位の情報|
|代表形(長)|~|
|品詞(長)|~|
|活用形(長)|~|
|活用型(長)|~|
|その他1(長)|~|
|その他2(長)|~|
|その他3(長)|~|
|出現形(後)|後続する短単位の情報|
|代表形(後)|~|
|代表表記(後)|~|
|品詞(後)|~|
|その他1(後)|~|
|出現形(前)|前接する短単位の情報|
|代表形(前)|~|
|代表表記(前)|~|
|品詞(前)|~|
|その他1(前)|~|
|講演ID|当該の転記基本単位の情報|
|開始時間|~|
|終了時間|~|
|コア|当該の転記テキストがコアに含まれるか否かを表すフラグ&br;T: 含む場合,F:含まない場合|
//|CH||



**3.6 転記テキストの閲覧 [#ga9b8777]
 検索結果(「品詞」「活用形」「発音形」欄を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は,赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
-長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。
-節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。

#br
#ref(./csj_manual_sample_browse.png)
#br

**3.7 音声データの再生 [#u6927306]
 インストール時に音声データを『ひまわり』にインストールしている場合,検索結果をダブルクリック(下記参照)すると,当該の検索文字列を含んだ転記単位の音声データを再生することができます。


*** 第9刷 [#h8fc1718]
- 『ひまわり』内蔵プレイヤーの場合
-- 「品詞」もしくは「発音形」欄をダブルクリックしてください。
-- 当該の転記基本単位から再生します。再生位置は,プレイヤーのスライダーをクリック,もしくは,ドラッグして,調節できます。
- VLCを利用する場合
++[[VLC>https://www.videolan.org/vlc/]]をインストールしてください。
++USBメモリの次のフォルダの wav ファイルを確認してください。なお,himawari_csj_sound.zipパッケージに含まれる音声データは,ogg形式です。本来VLCでもogg形式のファイルを再生できるはずですが,再生位置の指定に関連した不具合があるため,wav形式のファイルを用います。
--- WAV/core
--- WAV/noncore
++「soundfiles_wav」フォルダを次の場所に作成し,上記フォルダ内からwavファイルをすべてコピーしてください。
--- Windowsの場合: 「Himawari_CSJ」フォルダの中のCorpora/CSJ/soundfiles_wav
--- macOSの場合: (「アプリケーション」フォルダ中の)『ひまわり』のアイコンを右クリック→「パッケージの内容を表示」→ Contents/Resources/Corpora/CSJ/soundfiles_wav
++検索結果の「活用形」欄をダブルクリックすると,VLCでwavファイルが再生されます。


*** 第8刷 [#c0a07968]
- 『ひまわり』内蔵プレイヤーの場合
-- 「品詞」もしくは「発音形」欄をダブルクリックしてください。
-- 当該の転記基本単位のみ再生します。前後を再生するには,プレイヤーのスライダーをクリック,もしくは,ドラッグして,調節してください。
- VLC(事前に要インストール)の場合
--「活用形」欄をダブルクリックしてください。

*** 第7刷まで(VLC要インストール) [#d5213e9e]
- Windows の場合: 「品詞」欄
- Mac の場合: 「活用形」欄
- Linux の場合: 「品詞」欄
-- ただし,Linux の場合は,設定ファイル(config.xml,または,config_csj_all.xml)を次のように一部修正する必要があります。
+++ "<access_command1" で始まる行を削除して下さい。 
+++ "<access_command3" で始まる行を探し,"<access_command1" として下さい。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS