#author("2020-08-25T01:54:04+00:00","default:rd","rd") #author("2020-08-25T02:03:11+00:00","default:rd","rd") [[全文検索システム『ひまわり』]] //&size(20){&color(red){本ページは現在構築中です};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2020-08-xx #br * 1.概要 [#x0562e5e] このページでは,[[日本語諸方言コーパス (COJADS)>https://www2.ninjal.ac.jp/cojads/]]のCSVデータを『ひまわり』で利用する方法について説明します。 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。 * 2.準備 [#a003392e] + [[I-JASのホームページ>https://chunagon.ninjal.ac.jp/static/ijas/about.html]]を参考に中納言のユーザ登録とI-JASの利用申請をしてください。 + 中納言にログインし,コーパス一覧のI-JASの備考欄から「テータ配布」のページを開いてください。 + プレインテキストのデータ(zipファイル)をダウンロードしてください。 -- 「対面調査(プレインテキスト)」「非対面調査(プレインテキスト)」の2種類があります。 -- CCH.zip のように圧縮してあるファイルがありますので,それをダウンロードしてください。 + [[利用方法>https://www2.ninjal.ac.jp/cojads/index.html?targ=howto]]の[[「日本語諸方言コーパス」モニター版利用規約>https://chunagon.ninjal.ac.jp/static/COJADS_TermsOfService.pdf]]をよくお読みください。 + [[データDL>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]から「一括ダウンロード,UTF8,ZIP」で,CSVデータをダウンロードしてください。 + COJADS→『ひまわり』変換パッケージをダウンロードしてください。 *3 『ひまわり』へのインポート [#b9bea5af] //** 3.1 方法1(手軽な方法) [#d419966b] この方法は,『ひまわり』のインポート機能をデフォルト設定で利用するだけの簡単な方法です。 + 2の準備でダウンロードした,zipファイルを展開してください。 + 『ひまわり』を起動し,展開したフォルダを『ひまわり』にドラッグ&ドロップしてください。 -- 複数のzipファイルのデータをまとめて検索したい場合は,展開してフォルダを一つのフォルダにまとめて,トップのフォルダを『ひまわり』にドラッグ&ドロップしてください。 -- トップのフォルダ |-- CCH |-- CCM --- EAU + 「テキストデータインポート」というタイトルのウィンドウが現れますので,「インポート」ボタンを押してください。 *3 変換手順 [#ka191cce] + 以上で終了です。 -- [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]の[[インポート(基礎編)>https://youtu.be/Z6N5pwd4UVU]]も参考にしてください。簡単な使い方の説明もあります。 -- 単語検索したい場合は,[[インポート(応用編)>https://youtu.be/wU2_YLs4sig]]を参考にしてください。なお,チュートリアルのページでは,形態素解析システムMeCabのインストールの方法も説明しています。 なお,この方法では,テキストの構造を考慮せず,プレインテキストを全文検索するだけです。そのため,話者のIDなど,本文以外も検索対象になってしまいますので注意してください。 //。方法2では,話者のIDなどテキストの構造を考慮しつつ,インポートする方法を説明する予定です。 //** 3.2 方法2(テキスト変換などを行う方法) [#p4c03145] //&size(20){&color(red){この方法は現在作成中です};};