#author("2021-09-02T01:40:34+00:00","default:rd","rd") #author("2021-09-07T15:20:28+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2021-02-17 (更新) #br *1.『日本語話し言葉コーパス』サンプルデータについて [#f73cf35d] 『日本語話し言葉コーパス』サンプルデータは,『日本語話し言葉コーパス』から2講演分の転記テキストと形態論情報を取り出し,『ひまわり』で検索できるように形式を変換したものです。 『日本語話し言葉コーパス』(CSJ)は,日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースです。データ量は,音声データで約660時間(短単位で約752万語)です。データベースには,音声データの他に,音声データに対する転記テキストが含まれます。転記テキストには,形態論情報,分節音・イントネーションラベル,係り受け構造情報などの研究用情報が付与されています。詳しくは,[[『日本語話し言葉コーパス』のホームページ>https://ccd.ninjal.ac.jp/csj/]]をご覧ください。 *2.ダウンロード [#ka9331ab] 次の場所からダウンロードしてください。本サンプルデータの著作権は,国立国語研究所と独立行政法人情報通信研究機構が保持しています。&color(red){サンプルデータを改変,あるいは再配布することは禁止します。};ダウンロードした時点で,この条件に御同意いただけたものとします。 -[[『日本語話し言葉コーパス』サンプルデータ>https://csd.ninjal.ac.jp/archives/Himawari/himawari_csj_sample_20210217.zip]] ... [ZIP 形式,約400KB] (2021-02-17) なお,CSJ全体の入手に関しては,[[『日本語話し言葉コーパス』のホームページ>https://ccd.ninjal.ac.jp/csj/]]をご覧ください。第4刷から『ひまわり』用CSJパッケージが同梱されており,『ひまわり』から全転記テキストと形態論情報を検索できます。本サンプルデータは,その一部です。1〜3刷をお持ちの方も無料で差分(『ひまわり』用のCSJパッケージを含む)が提供されていますので,CSJホームページからお申し込み下さい。 //現在のところ,『日本語話し言葉コーパス』の配布 DVD には,『ひまわり』で検索できる形式のデータは収録されていませんが,「『日本語話し言葉コーパス』を『ひまわり』で利用する方法」([[方法1>全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法]],[[方法2>全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法2]])のページを用意しております。よろしければ,ご参照ください。 //今後変換スクリプトの公開などの形で対応する予定です。 #br #br *3.インストール [#g35a27d7] ここでは,『ひまわり』がすでにインストールされているものとして説明します。インストールがお済みでない方は,[[『ひまわり』のホームページ>全文検索システム『ひまわり』]]から,『ひまわり』(ver.1.6以降)をダウンロードし,マニュアルに従って,インストールを行ってください。 『日本語話し言葉コーパス』サンプルデータのインストールの手順は,次のとおりです。 + 『ひまわり』を起動してください。 + パッケージをダウンロードし,起動している『ひまわり』にドラッグ&ドロップしてください。 + 「インストールが終了しました」と表示されれば,インストールは完了です。 *4.使い方 [#jb68f216] パッケージインストール直後は,『日本語話し言葉コーパス』サンプルデータが検索できる状態になっています。 // 『日本語話し言葉コーパス』サンプルデータを検索対象とするには,『ひまわり』を起動し,[ファイル]→[コーパス選択]で「日本語話し言葉コーパス(サンプル)」を読み込んでください。 検索方法,検索結果の詳細については,「[[『ひまわり』で『日本語話し言葉コーパス』を利用する方法>全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法]]」の「[[3.使用方法>全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法#g12e5585]]」を参照して下さい。ただし,本パッケージでは,「音声データの再生」機能を使うことはできません。 *5.アンケート [#u7dd9448] よろしければ,アンケートにもお答えください。なお,このアンケートは,どのような方が本パッケージを使っておられるかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。 *5.アンケート [#s4cf1500] #html{{ <div style="text-align:center"> <iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UN0hQNklIRTBWMjA4TDVGRzk2VkRCWlRONS4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe> </div> }} #qa1(masaya,masaya,[himawari-csj_sample_20210217],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)