国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
目次
『日本語日常会話コーパス』の公開版(以後,CEJC)の配布ハードディスクには,全文検索システム『ひまわり』用パッケージ(以後,CEJCパッケージ)が同梱されています。このページでは,CEJCパッケージの利用方法を説明します。特徴は,次のとおりです。
なお,CEJCパッケージは,配布ハードディスクに同梱される各種コーパスファイル,メタデータを『ひまわり』,FishWatchrにインポートする形で構築しています。構築時は,基本的にオリジナルのデータに変更を加えることなく利用していますが,それぞれの発話末に発話区切りを表す「語」(長さ0,品詞:himawari_発話末)を追加しています。長さ0なので本文には影響を与えず,また,全文検索にも影響を与えませんが,語数などを計測する際は,注意して下さい。
CEJCパッケージは,次の環境で動作します。
本ページでは,CEJCパッケージに固有の事柄について説明します。CEJCや『ひまわり』,FishWatchr自体の一般的な使い方については,それぞれのマニュアルを参照して下さい。
『ひまわり』が起動したら,検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。次の例では,「学校」を検索した結果です。
検索結果の各列の説明は,次のとおりです。CEJCマニュアルもあわせて,参照して下さい。
列名 | 備考 |
---|---|
前文脈 | キーの前文脈 |
キー | 検索文字列 |
後文脈 | キーの後文脈 |
会話ID | キーが出現した会話のID |
話者ID | キーの先頭文字を含む発話(発話単位)の話者情報 |
話者ラベル | |
性別 | |
年齢 | |
出身地 | |
職業 | |
話者間の関係性 | |
形式 | キーの先頭文字を含む会話の情報 |
収録場所 | |
収録年 | |
活動 | |
話者数 | |
S品詞 | キーの先頭文字を含む語(短単位)の情報 (長単位の場合,「L品詞」のように,列名の先頭文字がLになる) |
S活用型 | |
S活用形 | |
S語彙素 | |
S語彙素読み | |
S発音形出現形 | |
S発音 | |
S書字形 | |
Sタグ付き書字形 | |
S語彙素-2 | 当該語の2語前の語彙素 |
S語彙素-1 | 当該語の1語前の語彙素 |
S語彙素1 | 当該語の1語後の語彙素 |
S語彙素2 | 当該語の2語後の語彙素 |
開始時刻 | 当該発話(発話単位)の開始時刻 |
終了時刻 | 当該発話(発話単位)の終了時刻 |
コア | 当該の会話がコアデータの場合は1,それ以外は0 |
コメント | 当該発話(発話単位)に付与されているコメント |
仮名 | キーの先頭文字が仮名の一部か否かを表すフラグ 仮名の場合は「仮名」,そうでない場合は空欄 |
なお,CEJCに付与されている単語の情報は,短単位,長単位の2種類あります。『ひまわり』では,短単位用CEJC,長単位用CEJCの,二つの独立したコーパスとして登録されています。そのため,検索前に[ファイル]→[コーパス選択]で選択してください(下図)。
どちらのコーパスを使用しているかは,『ひまわり』のウィンドウのタイトル部分(3.4の図参照)を参照してください。また,検索結果の列名や検索対象名の表示にも違いがあります。例えば,短単位用の場合は「S品詞」のようにSがつき,長単位用の場合は「L品詞」のようにLがつきます。
検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの4.1 節もあわせてご覧ください。
検索結果(「会話ID」「話者ID」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。
タグ名 | 説明 | 付与されている属性例 |
cejc | 転記テキスト全体に対して付与されている情報 | 会話ID,話者間の関係 |
u | 発話に付与されている情報 | 話者ID,年齢,職業,出身地 |
s | 単語(短単位)に付与されている情報 | 品詞,語彙素,発音 |
l | 単語(長単位)に付与されている情報 | 品詞,語彙素,発音 |
^(?!himawari|形態論).+$
『ひまわり』の検索結果の「性別」もしくは「年齢」列の値をダブルクリックすると,当該行の検索結果の動画を観察支援システムFishWatchrで閲覧することができます。
FishWatchrの機能のうち,よく使うものを次に挙げておきます。詳細は,FishWatchrのマニュアルを参照して下さい。
『ひまわり』もしくは本パッケージに関するお問い合わせは,にお願いします。ただし,お問い合わせ前には,必ず,『ひまわり』利用者マニュアル,FishWatchr利用者マニュアル,『ひまわり』FAQを確認して下さい。
なお,CECJの仕様やそのデータに関しては,『日本語日常会話コーパス』CEJCのページを参照下さい。
全文検索システム『ひまわり』および観察支援システムFishWatchrの作成にあたっては,次のJSPS科研費の助成を受けています。
CEJCパッケージ作成にあたっては,小磯花絵氏,西川賢哉氏にオリジナルのコーパスデータ・メタデータ,および,その構造情報の提供,データ構造のすり合わせをしていただきました。また,居關友里子氏,川端良子氏にパッケージ・本ページに対するコメントをいただきました。深く感謝いたします。