#author("2022-12-06T14:30:42+09:00","default:rd","rd") #author("2022-12-06T14:32:13+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] //&size(20){&color(red){COJADS CSV データ Ver.2022.03では,動作しなくなったため,公開を一時停止します。};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2022-12-06(更新)/2020-08-25(公開) #br * 1.概要 [#x0562e5e] このページでは,[[日本語諸方言コーパス (COJADS)>https://www2.ninjal.ac.jp/cojads/]]のCSVデータを『ひまわり』で利用する方法について説明します。 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。 * 2.準備 [#a003392e] //([[ビデオチュートリアル>https://youtu.be/8BpCwGFmBjI]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も参照してください) //+ [[利用方法>https://www2.ninjal.ac.jp/cojads/index.html?targ=howto]]の[[「日本語諸方言コーパス」モニター版利用規約>https://chunagon.ninjal.ac.jp/static/COJADS_TermsOfService.pdf]]をよくお読みください。「研究成果の公表等に際しては、モニター版の利用規約に準ずる」ことが求められます(詳細は,「[[データDL>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]」参照)。 + [[データ配布のページ>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]を参照し,「COJADS無償版の配布データ」の Ver.2022.03_cojads無償版.zip を入手してください。 + [[データ配布のページ>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]を参照し,「無償版COJADS」の Ver.2022.03_cojads無償版.zip を入手してください。 //-- [[データ配布のページ>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]で「ゲストとしてログイン」する(とよいようです) + Ver.2022.03_cojads無償版.zip を展開し,「3.csv_utf8_配布用_Ver.2022.03」フォルダがあることを確認してください。 + 「COJADS→『ひまわり』変換パッケージ」をダウンロードしてください。 -- [[COJADS→『ひまわり』変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/cojads2himawari_20221130.zip]] (2022-11-30) //-- [[COJADS→『ひまわり』変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/cojads2himawari_20200825.zip]] (2020-08-25) + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。 *3 変換手順 [#ka191cce] + 『ひまわり』を起動してください。 + 変換パッケージ(cojads2himawari_20221130.zipなど)を『ひまわり』にドラッグ&ドロップしてください。 -- なお,上書きの警告がでますが,無視してかまいません。 +「3.csv_utf8_配布用_Ver.2022.03」フォルダを『ひまわり』にドラッグ&ドロップしてください。 + 出現したウィンドウ左下に「詳細オプション」がありますので,次のように設定してください。 -- 「コーパス名」欄を半角の「COJADS」に変更(「詳細オプション」の上) -- 「テキスト変換」を「cojads_sample.htd」に変更 -- 「コーパス構築」の「索引付けを実行しない」にチェックを入れる + 「インポート」ボタンを押して,インポートを実行してください。 -- 「インポートが正常に終了しました」となれば,OKです。 + 再び,変換パッケージを『ひまわり』にドラッグ&ドロップしてください。 -- 今回も上書きの警告がでますが,無視してかまいません。 + 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この処理には,数分かかります。 + 以上で終了です。 //-- [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]の[[インポート(基礎編)>https://youtu.be/Z6N5pwd4UVU]]も参考にしてください。簡単な使い方の説明もあります。 //-- 単語検索したい場合は,[[インポート(応用編)>https://youtu.be/wU2_YLs4sig]]を参考にしてください。なお,チュートリアルのページでは,形態素解析システムMeCabのインストールの方法も説明しています。 * 4.使い方 [#j4398ff6] - 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「日本語諸方言コーパス(COJADS)」を選択してください。 - 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。 - 検索文字列欄の左のメニューで「標準語」「方言」「標準語(正規表現)」「方言(正規表現)」を選択できます。正規表現検索は,通常の検索よりも低速です。 - 検索結果は,CSVデータの列と同じになるようになっています。 #br #ref(./himawari_cojads.png,wrap,70%) #br - 検索結果をクリックすると,Webブラウザで対話全体が表示されます。 -- 検索文字列は,赤い文字で表示されます。 -- 話者にカーソルをあわせると,生年,年齢,性別がポップアップ表示されます。 #br #ref(./browse_cojads.png,wrap,70%) #br //&size(20){&color(red){この方法は現在作成中です};};