国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
#author("2022-12-18T20:19:56+09:00","default:rd","rd") #author("2022-12-18T20:24:18+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] &size(20){&color(red){作成中};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:202x-xx-xx(公開) #br * 1.概要 [#x0562e5e] このページでは,[[小中高大生による日本語絵描写ストーリーライティングコーパス(JASWRIC)>https://language.sakura.ne.jp/jaswric/]](JASWRIC_tagged)を『ひまわり』で利用する方法について説明します。 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。 * 2.準備 [#a003392e] + 使用するPCでプログラミング言語Perlが使えるようにしてください。 -- 参考(Windowsの場合): [[ActivePerlのダウンロード及びインストール(Javadrive)>https://www.javadrive.jp/perl/activeperl/index1.html]] -- macOSにはデフォルトでインストールされています。 + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。 + 変換パッケージをダウンロードし,展開してください。以後,展開したフォルダを変換Fとします。 -- 変換パッケージ + [[JASWRICのHP>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]の「JASWRICダウンロード版の入手方法」を参照し,JASWRIC_1.0.zipを入手してください。 + JASWRIC_1.0.zip を展開し,次の処理を行ってください。 -- JASWRIC_Tagged.xlsx, をExcelで読み込み,[ファイル]→[名前をつけて保存]から「Unicodeテキスト(*.txt)」形式で保存してください。保存した結果(JASWRIC_Tagged.txt)を変換F中のScriptフォルダにコピーしてください。 -- JASWRIC_Participant Survey.xlsx をExcelで読み込み,[ファイル]→[名前をつけて保存]から「Unicodeテキスト」形式で保存してください。保存した結果(JASWRIC_Participant Survey.txt)を変換F中のScriptフォルダにコピーしてください。この際,この後の処理で問題が発生するのを防ぐため,ファイル名に含まれる空白を次のように「_」変更してください。 JASWRIC_Participant Survey.txt → JASWRIC_Participant_Survey.txt -- Raw DataファオルダにあるScannedフォルダを変換F中のScriptフォルダの中にコピーしてください。 *3 変換手順 [#ka191cce] + ScriptフォルダにあるJASWRIC2Himawari.plで変換を実行します。 -- コマンドラインから,次のように実行してください。 $ perl JASWRIC2Himawari.pl JASWRIC_Participant_Survey.txt JASWRIC_Tagged.txt Scanned > corpus.xml -- Windowsの場合,Script フォルダにある henkan.bat をダブルクリックしても,上記のコマンドが実行されます。もちろん,上のコマンドを実行してもよいです。 + Scriptフォルダにcorpus.xmlが生成されていることを確認してください。 + corpus.xmlを変換F/Package/Corpora/JASWRIC フォルダにコピーしてください。 + 『ひまわり』を起動してください。 + 変換F/Packageフォルダを『ひまわり』にドラッグ&ドロップしてください。 + 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。 + 以上で終了です。これでJASWRICが使える状態になります。なお,『ひまわり』にインストールされている言語資料を選択するには,[ファイル]→[コーパス選択]で行ってください。「(JASWRIC)小中高大生による日本語絵描写ストーリーライティングコーパス」もあるはずです。 * 4.使い方 [#j4398ff6] - 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。 //- 検索文字列欄の左のメニューで「標準語」「方言」「標準語(正規表現)」「方言(正規表現)」を選択できます。正規表現検索は,通常の検索よりも低速です。 - 検索結果は,CSVデータの列と同じになるようになっています。 #br #ref(./himawari_cojads.png,wrap,70%) #br - 検索結果をクリックすると,Webブラウザで対話全体が表示されます。 - 検索文字列欄の左のメニューで検索方法を選択してください。 --「全文」 --「全文(正規表現,文相当)」 --「全文(正規表現,短単位)」 --「語彙素」 --「書字形(基本形)」 --「品詞」 - 検索結果をクリックすると,当該の作文全体がWebブラウザで表示されます。 -- 検索文字列は,赤い文字で表示されます。 -- 話者にカーソルをあわせると,生年,年齢,性別がポップアップ表示されます。 -- 話者にカーソルをあわせると,単語の情報がポップアップで表示されます。 #br #ref(./browse_cojads.png,wrap,70%) #br //#br //#ref(./browse_cojads.png,wrap,70%) //#br //&size(20){&color(red){この方法は現在作成中です};};