[PukiWiki]

全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用 の変更点

Top/全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用 へ行く。
  • 全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用 の差分を削除

#author("2022-12-06T14:30:42+09:00","default:rd","rd")
#author("2022-12-06T14:32:13+09:00","default:rd","rd")
[[全文検索システム『ひまわり』]]

//&size(20){&color(red){COJADS CSV データ Ver.2022.03では,動作しなくなったため,公開を一時停止します。};};

RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2022-12-06(更新)/2020-08-25(公開)
#br

* 1.概要 [#x0562e5e]
 このページでは,[[日本語諸方言コーパス (COJADS)>https://www2.ninjal.ac.jp/cojads/]]のCSVデータを『ひまわり』で利用する方法について説明します。

 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。


* 2.準備 [#a003392e]
//([[ビデオチュートリアル>https://youtu.be/8BpCwGFmBjI]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も参照してください)

//+ [[利用方法>https://www2.ninjal.ac.jp/cojads/index.html?targ=howto]]の[[「日本語諸方言コーパス」モニター版利用規約>https://chunagon.ninjal.ac.jp/static/COJADS_TermsOfService.pdf]]をよくお読みください。「研究成果の公表等に際しては、モニター版の利用規約に準ずる」ことが求められます(詳細は,「[[データDL>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]」参照)。
+ [[データ配布のページ>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]を参照し,「COJADS無償版の配布データ」の Ver.2022.03_cojads無償版.zip を入手してください。
+ [[データ配布のページ>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]を参照し,「無償版COJADS」の Ver.2022.03_cojads無償版.zip を入手してください。
//-- [[データ配布のページ>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]で「ゲストとしてログイン」する(とよいようです)
+ Ver.2022.03_cojads無償版.zip を展開し,「3.csv_utf8_配布用_Ver.2022.03」フォルダがあることを確認してください。
+ 「COJADS→『ひまわり』変換パッケージ」をダウンロードしてください。
-- [[COJADS→『ひまわり』変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/cojads2himawari_20221130.zip]] (2022-11-30)
//-- [[COJADS→『ひまわり』変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/cojads2himawari_20200825.zip]] (2020-08-25)
+ [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。

*3 変換手順 [#ka191cce]
+ 『ひまわり』を起動してください。
+ 変換パッケージ(cojads2himawari_20221130.zipなど)を『ひまわり』にドラッグ&ドロップしてください。
-- なお,上書きの警告がでますが,無視してかまいません。
+「3.csv_utf8_配布用_Ver.2022.03」フォルダを『ひまわり』にドラッグ&ドロップしてください。
+ 出現したウィンドウ左下に「詳細オプション」がありますので,次のように設定してください。
-- 「コーパス名」欄を半角の「COJADS」に変更(「詳細オプション」の上)
-- 「テキスト変換」を「cojads_sample.htd」に変更
-- 「コーパス構築」の「索引付けを実行しない」にチェックを入れる
+ 「インポート」ボタンを押して,インポートを実行してください。
-- 「インポートが正常に終了しました」となれば,OKです。
+ 再び,変換パッケージを『ひまわり』にドラッグ&ドロップしてください。
-- 今回も上書きの警告がでますが,無視してかまいません。
+ 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この処理には,数分かかります。
+ 以上で終了です。

//--  [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]の[[インポート(基礎編)>https://youtu.be/Z6N5pwd4UVU]]も参考にしてください。簡単な使い方の説明もあります。
//-- 単語検索したい場合は,[[インポート(応用編)>https://youtu.be/wU2_YLs4sig]]を参考にしてください。なお,チュートリアルのページでは,形態素解析システムMeCabのインストールの方法も説明しています。

* 4.使い方 [#j4398ff6]
- 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「日本語諸方言コーパス(COJADS)」を選択してください。
- 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。
- 検索文字列欄の左のメニューで「標準語」「方言」「標準語(正規表現)」「方言(正規表現)」を選択できます。正規表現検索は,通常の検索よりも低速です。 
- 検索結果は,CSVデータの列と同じになるようになっています。
#br
#ref(./himawari_cojads.png,wrap,70%)
#br
- 検索結果をクリックすると,Webブラウザで対話全体が表示されます。
-- 検索文字列は,赤い文字で表示されます。
-- 話者にカーソルをあわせると,生年,年齢,性別がポップアップ表示されます。

#br
#ref(./browse_cojads.png,wrap,70%)
#br






//&size(20){&color(red){この方法は現在作成中です};};

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS