本ページの内容は,古くなっています。最新情報は,全文検索システム『ひまわり』/『昭和話し言葉コーパス』を参照してください。
目次
『昭和話し言葉コーパス』のモニター公開データ(以後,SSC)の配布DVDには,全文検索システム『ひまわり』を用いた検索環境が同梱されています(入手方法)。このページでは,SSCパッケージの利用方法を説明します。特徴は,次のとおりです。
なお,SSCパッケージは,配布DVDに同梱される転記テキスト,メタデータを『ひまわり』にインポートする形で構築しています。
SSCパッケージは,次の環境で動作します。
% java -jar himawari.jar
『ひまわり』が起動したら,検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。次の例は,「言葉」を検索した結果です。
検索結果の各列の説明は,次のとおりです。SSCのマニュアルもあわせて,参照して下さい。
列名 | 備考 |
---|---|
前文脈 | キーの前文脈 |
キー | 検索文字列 |
後文脈 | キーの後文脈 |
ファイルID | キーが出現したファイルのID |
話者ID | キーの発話者のID |
話者 | 当該発話の話者情報 |
性別 | |
年齢 | |
出身地 | |
タイプ | 当該ファイルの情報 |
タイトル | |
収録日 | |
開始時刻 | 当該発話の開始時刻 |
終了時刻 | 当該発話の終了時刻 |
検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの4.1 節もあわせてご覧ください。
検索結果(「ファイルID」「話者ID」「話者」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。
タグ名 | 表示方法 |
読み | タグ付けされたテキストにルビとして表示 |
転訛 | タグ付けされたテキストにルビ(括弧つき)として表示 |
他話者,引用 | タグ付けされたテキスト強調表示(ボールド) |
咳,笑,板書 | タグを青色で表示 |
録音途切れ,録音途切れ | |
他音声混入,ノイズ混入 | |
講演開始までのやり取り(転記なし) | |
F, D, M | タグ付けされたテキストをそのまま表示 |
本研究は,国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」の一環として行われました。
全文検索システム『ひまわり』の作成にあたっては,次のJSPS科研費の助成を受けています。