『日本語話し言葉コーパス』(CSJ)は,第4刷から『ひまわり』用CSJパッケージを同梱して,配布されています。本ページでは,『ひまわり』用CSJパッケージの利用方法を説明します。本パッケージの特徴は,次のとおりです。
$ xattr -c ダウンロードしたzipファイル
ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルやビデオチュートリアルをご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。
コーパス選択機能を用いて,サブコーパスを選択します。なお,サブコーパス名の略号(例:「A01」)については,『日本語話し言葉コーパス』の概観の「2.8 ファイルの命名」,および,音声収録作業の概要をご覧ください。
次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。
検索結果には,次の情報が含まれます。「短単位・長単位データマニュアル」の3.2節も合わせて参照して下さい。
列名 | 備考 |
---|---|
前文脈 | |
出現形(検索文字列とマッチした文字列など) | |
後文脈 | |
代表表記 | 短単位の情報 「活用型」「その他1」〜「その他3」は,短単位・長単位データマニュアル」の「活用の種類」,「その他の情報1」〜「その他の情報3」に対応 |
代表形 | |
品詞 | |
活用形 | |
活用型 | |
その他1 | |
その他2 | |
その他3 | |
発音形 | |
代表表記(長) | 長単位の情報 |
代表形(長) | |
品詞(長) | |
活用形(長) | |
活用型(長) | |
その他1(長) | |
その他2(長) | |
その他3(長) | |
出現形(後) | 後続する短単位の情報 |
代表形(後) | |
代表表記(後) | |
品詞(後) | |
その他1(後) | |
出現形(前) | 前接する短単位の情報 |
代表形(前) | |
代表表記(前) | |
品詞(前) | |
その他1(前) | |
講演ID | 当該の転記基本単位の情報 |
開始時間 | |
終了時間 | |
コア | 当該の転記テキストがコアに含まれるか否かを表すフラグ T: 含む場合,F:含まない場合 |
検索結果(「品詞」「活用形」「発音形」欄を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。
インストール時に音声データを『ひまわり』にインストールしている場合,検索結果をダブルクリック(下記参照)すると,当該の検索文字列を含んだ転記単位の音声データを再生することができます。