#author("2021-02-21T14:45:48+00:00;2021-02-21T09:50:48+00:00","default:rd","rd") #author("2021-02-22T01:45:04+00:00","default:rd","rd") [[全文検索システム『ひまわり』]] &size(20){&color(red){COJADS CSV データ Ver.2021.01では,動作しなくなったため,公開を一時停止します。};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2020-08-25 #br * 1.概要 [#x0562e5e] このページでは,[[日本語諸方言コーパス (COJADS)>https://www2.ninjal.ac.jp/cojads/]]のCSVデータを『ひまわり』で利用する方法について説明します。 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。 * 2.準備 [#a003392e] ([[ビデオチュートリアル>https://youtu.be/8BpCwGFmBjI]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も参照してください) + [[利用方法>https://www2.ninjal.ac.jp/cojads/index.html?targ=howto]]の[[「日本語諸方言コーパス」モニター版利用規約>https://chunagon.ninjal.ac.jp/static/COJADS_TermsOfService.pdf]]をよくお読みください。 + [[データDL>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]から「一括ダウンロード,UTF8,ZIP」で,CSVデータをダウンロードし,展開してください。以後,展開したフォルダを「COJADSフォルダ」とします。 -- &color(red){ただし,COJADS・CSVデータ・Ver.2021.01の次のファイルは,本変換パッケージでは,正常にインポートできず,変換が終了しません。事前に削除しておいてください。}; --- 02_e_003_utf8 --- 08_c_099_utf8 --- 13_a_028_utf8 --- 36_b_099_utf8 --- 42_b_099_utf8 --- 47_c_099_utf8 + 「COJADS→『ひまわり』変換パッケージ」をダウンロードし,展開してください。以後,展開したフォルダを「変換Pフォルダ」とします。 -- &color(red){CSV データ Ver.2021.01では,動作しなくなったため,公開を一時停止します。}; //-- [[COJADS→『ひまわり』変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/cojads2himawari_20200825.zip]] (2020-08-25) + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。 *3 変換手順 [#ka191cce] + COJADSフォルダ中のすべてのファイルの拡張子を .csv から .txt にリネームしてください。 -- 例: 01_b_099_utf8.csv → 01_b_099_utf8.txt -- Windows 用ですが,変換パッケージに一括変換用のスクリプトを用意しています。変換Pフォルダ中のnamae_kaeru.batをCOJADSフォルダにコピーし,ダブルクリックしてください。 + 変換Pフォルダ中の cojads_sample.htd を『ひまわり』フォルダ中の resources → htd フォルダにコピーしてください。 -- macOSの場合,アプリケーションフォルダの『ひまわり』を右クリックし,「パッケージの内容を表示」→ Contents → Java → resources → htd フォルダです。 + 『ひまわり』を起動してください。 + COJADSフォルダを『ひまわり』にドラッグ&ドロップしてください。 + 出現したウィンドウ左下に「詳細オプション」がありますので,次のように設定してください。 -- 「コーパス名」を「COJADS」に変更(「詳細オプション」の上) -- 「テキスト変換」を「cojads_sample.htd」に変更 -- 「コーパス構築」の「索引付けを実行しない」にチェックを入れる + 「インポート」ボタンを押して,インポートを実行してください。 -- 「インポートが正常に終了しました」となれば,OKです。 + 変換Pフォルダ中の Package フォルダを『ひまわり』にドラッグ&ドロップしてください。 -- これにより,各種の設定ファイルが『ひまわり』にインストールされます。 -- なお,上書きの警告がでますが,無視してかまいません。 + 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この処理には,数分かかります。 + 以上で終了です。 //-- [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]の[[インポート(基礎編)>https://youtu.be/Z6N5pwd4UVU]]も参考にしてください。簡単な使い方の説明もあります。 //-- 単語検索したい場合は,[[インポート(応用編)>https://youtu.be/wU2_YLs4sig]]を参考にしてください。なお,チュートリアルのページでは,形態素解析システムMeCabのインストールの方法も説明しています。 * 4.使い方 [#j4398ff6] - 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「日本語諸方言コーパス(COJADS)」を選択してください。 - 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。 - 検索文字列欄の左のメニューで「標準語」「方言」「標準語(正規表現)」「方言(正規表現)」を選択できます。正規表現検索は,通常の検索よりも低速です。 - 検索結果は,CSVデータの列と同じになるようになっています。 #br #ref(./himawari_cojads.png,wrap,70%) #br - 検索結果をクリックすると,Webブラウザで対話全体が表示されます。 -- 検索文字列は,赤い文字で表示されます。 -- 話者にカーソルをあわせると,生年,年齢,性別がポップアップ表示されます。 #br #ref(./browse_cojads.png,wrap,70%) #br //&size(20){&color(red){この方法は現在作成中です};};