#author("2024-05-24T19:47:35+09:00","external:fishwatchr2@gmail.com","fishwatchr2@gmail.com") #author("2024-05-24T19:48:59+09:00","external:fishwatchr2@gmail.com","fishwatchr2@gmail.com") [[全文検索システム『ひまわり』]] #br #br CENTER:&size(20){[[『日本語学習者作文コーパス』>http://sakubun.jpn.org/]]の公開停止に伴い,本ページも保守を停止します。}; &size(20){[[『日本語学習者作文コーパス』>http://sakubun.jpn.org/]]の公開停止に伴い,&color(red){本ページも保守を停止します。};}; #br #br RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2023-01-31(公開) #br * 1.概要 [#x0562e5e] このページでは,[[『日本語学習者作文コーパス』>http://sakubun.jpn.org/]]を『ひまわり』で利用する方法(&color(red){Windows環境のみ};)について説明します。 -『ひまわり』の機能を利用できる(全文検索,単語検索,各種集計機能など) - 検索システム中のデータ(XMLデータ)を確認・検証・(必要ならば)変更できる なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。 * 2.準備 [#a003392e] ([[ビデオチュートリアル>https://youtu.be/FYK9DrZG1ZI]]もご覧ください) + 使用するPCでプログラミング言語Perlを使えるようにしてください。 -- 参考: [[Strawberry Perlのダウンロード及びインストール(Javadrive)>https://www.javadrive.jp/perl/activeperl/index4.html]] + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。 + 変換パッケージをダウンロードし,展開してください。以後,展開したフォルダを「&color(red){変換フォルダ};」とします。 -- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/jlcc2himawari_20230131.zip]] (2023-01-31) //-- [[GitHub>https://github.com/himawari-san/JASWRIC2Himawari]]にも公開しています。 + [[『日本語学習者作文コーパス』のHP>http://sakubun.jpn.org/]]を開き,「利用者登録」を行ってください。 +「[[使い方を見る>http://sakubun.jpn.org/howto/]]」のページを開き,「全文データをダウンロードする」から「data.zip」をダウンロード・展開し,次の処理をしてください。 -- morphフォルダを変換フォルダにコピー -- register.xlsをExcelで読み込み,[ファイル]→[名前をつけて保存]を実行し,「Unicodeテキスト」形式で保存してください。さらに,保存した結果(register.txt)を変換フォルダにコピーしてください。なお,Excel以外を用いる場合は,タブ区切り・UTF-16 BOMなしとなるよう,保存してください。 *3 変換手順 [#ka191cce] + 変換フォルダにあるhenkan.batをダブルクリックしてください。コーパスがXML形式に変換され,JLCCフォルダに格納されます。 + 起動している『ひまわり』にJLCCフォルダをドラッグ&ドロップし,『ひまわり』にインポートします。ドラッグ&ドロップ後にオプション設定用のウィンドウが表示されます。&color(red){ウィンドウ左下の「詳細オプション」をクリックすると};,下図のようにすべてのオプションが表示されるので,次のように設定してください(赤枠部分はデフォルトからの変更箇所)。 #br #ref(./jlcc_import_options1.png,wrap,70%) #br + インポートが成功したら,変換フォルダのPackageフォルダを『ひまわり』にドラッグ&ドロップしてください。『日本語学習者作文コーパス』用の設定ファイルなどがインストールされます。 + 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。 + 以上で終了です。これで『日本語学習者作文コーパス』が使える状態になります。なお,『ひまわり』にインストールされている言語資料を選択するには,[ファイル]→[コーパス選択]で行ってください。『日本語学習者作文コーパス』もあるはずです。 * 4.使い方 [#j4398ff6] - 『日本語学習者作文コーパス』の詳細については,[[HP>http://sakubun.jpn.org/]]を参照してください。 - 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]や[[マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_7]]などを参考にしてください。 - 検索文字列欄の左のメニューで検索方法を選択してください。 --「全文」 --「全文(正規表現)」 --「書字形(正規表現)」 --「語彙素」 --「語彙素読み」 --「品詞」 --「添削」 - 検索結果をクリックすると,当該の作文全体がWebブラウザで表示されます。 -- 検索文字列は,赤い文字で表示されます。 -- 話者にカーソルをあわせると,単語の情報がポップアップで表示されます。 - 実行例(ブラウザで表示中の作文はCG052) #br #ref(./jlcc_demo.png,wrap,50%) #br * 謝辞 [#o28ef02a] 有用な言語資源を公開してくださった「自然言語処理の技術を利用したタグ付き学習者作文コーパスの開発」科研グループに感謝いたします。