国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
#author("2022-12-21T11:46:38+09:00;2022-12-19T21:11:34+09:00","default:rd","rd") #author("2023-04-01T23:00:12+09:00;2023-04-01T21:26:26+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] //&size(20){&color(red){作成中};}; //&size(20){&color(red){JASWRIC ver.1.1への対応のため,本ページの内容は作業中のものです。};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2022-12-19(公開) RIGHT:2023-04-01(更新),2022-12-19(公開) #br * 1.概要 [#x0562e5e] このページでは,[[小中高大生による日本語絵描写ストーリーライティングコーパス(JASWRIC)>https://language.sakura.ne.jp/jaswric/]][JASWRIC_tagged版]を『ひまわり』で利用する方法について説明します。 このページでは,『[[小中高大生による日本語絵描写ストーリーライティングコーパス(JASWRIC)>https://language.sakura.ne.jp/jaswric/]]』[JASWRIC_tagged版]を『ひまわり』で利用する方法について説明します(&color(red){Windows環境以外は簡易的な説明のみ};)。この方法の利点は,次のとおりです。 - 『ひまわり』の機能を利用できる(全文検索,単語検索,各種集計機能など) - 検索システム中のデータ(XMLデータ)を確認・検証・(必要ならば)変更できる なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。 ----- &color(red){2023-04-01追記};: 一般の利用者の方は,JASWRIC『ひまわり』用パッケージをご利用ください。 『[[小中高大生による日本語絵描写ストーリーライティングコーパス(JASWRIC)>https://language.sakura.ne.jp/jaswric/]]』から配布されている「[[JASWRICダウンロード版>https://language.sakura.ne.jp/jaswric/#download]]」(ver.1.1)に『ひまわり』用パッケージが同梱されることになりました。[[『ひまわり』用パッケージのインストールは容易>https://csd.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9/%CD%F8%CD%D1%BC%D4%A5%DE%A5%CB%A5%E5%A5%A2%A5%EB/1_6/%A3%B3%A1%A5%B8%A1%BA%F7%A4%B7%A4%C6%A4%DF%A4%E8%A4%A6#k606d4ce]]ですので,一般の利用者の方は,本ページの方法ではなく,「JASWRICダウンロード版」の『ひまわり』用パッケージをご利用ください。 ----- //石川慎一郎・友永達也・大西遼平・岡本利昭・勝部尚樹・川嶋久予・岸本達也・村中礼子(2022)「『小中高大生による日本語絵描写ストーリーライティングコーパス』(JASWRIC)の構築:L1/L2日本語研究の新しい資料として」『言語資源ワークショップ発表論文集』7. * 2.準備 [#a003392e] ([[チュートリアルビデオ>https://youtu.be/Dg6ZcPhi_Jc]]) + 使用するPCでプログラミング言語Perlを使えるようにしてください。 -- 参考(Windowsの場合): [[Strawberry Perlのダウンロード及びインストール(Javadrive)>https://www.javadrive.jp/perl/activeperl/index4.html]] -- macOSにはデフォルトでインストールされています。 -- 参考: [[Strawberry Perlのダウンロード及びインストール(Javadrive)>https://www.javadrive.jp/perl/activeperl/index4.html]] + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。 + 変換パッケージをダウンロードし,展開してください。以後,展開したフォルダを変換Fとします。 -- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/jaswric2himawari_20221219.zip]] (2022-12-19) + 変換パッケージをダウンロードし,展開してください。以後,展開したフォルダを「&color(red){変換フォルダ};」とします。 -- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/jaswric2himawari_20230315.zip]] (2023-03-15,[[履歴>./履歴]]) -- [[GitHub>https://github.com/himawari-san/JASWRIC2Himawari]]にも公開しています。 + [[JASWRICのHP>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]の「JASWRICダウンロード版の入手方法」を参照し,JASWRIC_1.0.zipを入手してください。 + JASWRIC_1.0.zip を展開し,次の処理を行ってください。 -- JASWRIC_Tagged.xlsx をExcelで読み込み,[ファイル]→[名前をつけて保存]を実行し,「Unicodeテキスト(*.txt)」形式で保存してください。保存した結果(JASWRIC_Tagged.txt)を変換F中のScriptフォルダにコピーしてください。 -- JASWRIC_Participant Survey.xlsx をExcelで読み込み,[ファイル]→[名前をつけて保存]を実行し,「Unicodeテキスト」形式で保存してください。保存した結果(JASWRIC_Participant Survey.txt)を変換F中のScriptフォルダにコピーしてください。この際,この後の処理で問題が発生するのを防ぐため,ファイル名に含まれる空白を次のように「_」変更してください。 JASWRIC_Participant Survey.txt → JASWRIC_Participant_Survey.txt -- Raw DataフォルダにあるScannedフォルダを変換F中のScriptフォルダの中にコピーしてください。 + [[JASWRICのHP>https://language.sakura.ne.jp/jaswric/]]の「JASWRICダウンロード版の入手方法」を参照し,JASWRIC_1.1.zipを入手してください。 + JASWRIC_1.1.zip を展開し,次の処理を行ってください。 ++ JASWRIC_Tagged_v.1.1.xlsx, JASWRIC_Participant Survey.xlsxをそれぞれExcelで読み込み,[ファイル]→[名前をつけて保存]を実行してください。保存の形式は,「Unicodeテキスト(*.txt)」形式です。 ++ 次のファイル,フォルダを変換フォルダ中のScriptフォルダにコピーしてください。 --- 上の保存結果の2ファイル(JASWRIC_Tagged_v1.1.txt, JASWRIC_Participant Survey.txt) --- Raw Data フォルダの中の Scannedフォルダ #br |&ref(./folder_root.png,80%);|&ref(./folder_script2.png,80%);| |CENTER:変換フォルダ|CENTER:Scriptフォルダ| #br *3 変換手順 [#ka191cce] + ScriptフォルダにあるJASWRIC2Himawari.plで変換を実行します。 -- コマンドラインから,次のように実行してください。 $ perl JASWRIC2Himawari.pl JASWRIC_Participant_Survey.txt JASWRIC_Tagged.txt Scanned > corpus.xml -- &color(red){Windowsの場合,Script フォルダにある henkan.bat をダブルクリックしても,上記のコマンドが実行されます。};もちろん,上のコマンドを実行してもかまいません。 -- 変換に際しては,JASWRIC_Tagged.txtから単語の情報を,JASWRIC_Participant_Survey.txtから作文の著者の情報を利用し,特別な変更は加えていません。 + Scriptフォルダにcorpus.xmlが生成されていることを確認してください。 + corpus.xmlを変換F/Package/Corpora/JASWRIC フォルダにコピーしてください。 + Script フォルダにある henkan.bat をダブルクリックすると,『ひまわり』形式のデータへ変換が行われます。 -- Windows環境以外での実行方法は,[[本ページ末尾の付録>#u8087c84]]を参照してください。 -- 変換に際しては,JASWRIC_Tagged_v1.1.txtから単語の情報を,JASWRIC_Participant_Survey.txtから作文の著者の情報を利用していますが,特別な変更は加えていません。 + 『ひまわり』を起動してください。 + 変換F/Packageフォルダを『ひまわり』にドラッグ&ドロップしてください。 + 変換フォルダ中のPackageフォルダを『ひまわり』にドラッグ&ドロップしてください。 + 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。環境によって異なりますが,数分程度かかります。 + 以上で終了です。これでJASWRICが使える状態になります。なお,『ひまわり』にインストールされている言語資料を選択するには,[ファイル]→[コーパス選択]で行ってください。「(JASWRIC)小中高大生による日本語絵描写ストーリーライティングコーパス」もあるはずです。 * 4.使い方 [#j4398ff6] - JASWRICの詳細については,HPの他,次の参考文献を参照してください。 -- 石川慎一郎・友永達也・大西遼平・岡本利昭・勝部尚樹・川嶋久予・岸本達也・村中礼子(2022)「『小中高大生による日本語絵描写ストーリーライティングコーパス』(JASWRIC)の構築:L1/L2日本語研究の新しい資料として」『言語資源ワークショップ発表論文集』7. - 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。 - 検索文字列欄の左のメニューで検索方法を選択してください。 --「全文」 --「全文(正規表現,文相当)」 --「全文(正規表現,短単位)」 --「語彙素」 --「書字形(基本形)」 --「品詞」 - 検索結果をクリックすると,当該の作文全体がWebブラウザで表示されます。 -- 検索文字列は,赤い文字で表示されます。 -- 話者にカーソルをあわせると,単語の情報がポップアップで表示されます。 - 実行例(作文はG01_Key_001) - 実行例(ブラウザで表示中の作文はG01_Key_001) #br #ref(./jaswric.png,wrap,70%) #ref(./jaswric_no_blur.png,wrap) #br * 謝辞 [#o28ef02a] 有用な言語資源を公開してくださった神戸大学石川慎一郎研究室のみなさまに感謝いたします。 * 付録 [#u8087c84] - Windows以外での変換の実行方法(3.1におけるhenkan.batによる変換の代わりに次のコマンドを実行してください) perl JASWRIC2Himawari.pl JASWRIC_Participant_Survey.txt JASWRIC\ Tagged_v1.1.txt Scanned > ../Package/Corpora/JASWRIC/corpus.xml //&size(20){&color(red){この方法は現在作成中です};};