[PukiWiki]

全文検索システム『ひまわり』/『日本語学習者作文コーパス』の利用 の変更点

Top/全文検索システム『ひまわり』/『日本語学習者作文コーパス』の利用

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 全文検索システム『ひまわり』/『日本語学習者作文コーパス』の利用 へ行く。
  • 全文検索システム『ひまわり』/『日本語学習者作文コーパス』の利用 の差分を削除

#author("2024-05-24T19:47:35+09:00","external:fishwatchr2@gmail.com","fishwatchr2@gmail.com")
#author("2024-05-24T19:48:59+09:00","external:fishwatchr2@gmail.com","fishwatchr2@gmail.com")
[[全文検索システム『ひまわり』]]

#br
#br
CENTER:&size(20){[[『日本語学習者作文コーパス』>http://sakubun.jpn.org/]]の公開停止に伴い,本ページも保守を停止します。};
&size(20){[[『日本語学習者作文コーパス』>http://sakubun.jpn.org/]]の公開停止に伴い,&color(red){本ページも保守を停止します。};};
#br
#br

RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2023-01-31(公開)
#br

* 1.概要 [#x0562e5e]
 このページでは,[[『日本語学習者作文コーパス』>http://sakubun.jpn.org/]]を『ひまわり』で利用する方法(&color(red){Windows環境のみ};)について説明します。

-『ひまわり』の機能を利用できる(全文検索,単語検索,各種集計機能など)
- 検索システム中のデータ(XMLデータ)を確認・検証・(必要ならば)変更できる

 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。


* 2.準備 [#a003392e]
 ([[ビデオチュートリアル>https://youtu.be/FYK9DrZG1ZI]]もご覧ください)

+ 使用するPCでプログラミング言語Perlを使えるようにしてください。
-- 参考: [[Strawberry Perlのダウンロード及びインストール(Javadrive)>https://www.javadrive.jp/perl/activeperl/index4.html]]
+ [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。
+ 変換パッケージをダウンロードし,展開してください。以後,展開したフォルダを「&color(red){変換フォルダ};」とします。
-- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/jlcc2himawari_20230131.zip]] (2023-01-31)
//-- [[GitHub>https://github.com/himawari-san/JASWRIC2Himawari]]にも公開しています。
+ [[『日本語学習者作文コーパス』のHP>http://sakubun.jpn.org/]]を開き,「利用者登録」を行ってください。
+「[[使い方を見る>http://sakubun.jpn.org/howto/]]」のページを開き,「全文データをダウンロードする」から「data.zip」をダウンロード・展開し,次の処理をしてください。
-- morphフォルダを変換フォルダにコピー
-- register.xlsをExcelで読み込み,[ファイル]→[名前をつけて保存]を実行し,「Unicodeテキスト」形式で保存してください。さらに,保存した結果(register.txt)を変換フォルダにコピーしてください。なお,Excel以外を用いる場合は,タブ区切り・UTF-16 BOMなしとなるよう,保存してください。

*3 変換手順 [#ka191cce]
+ 変換フォルダにあるhenkan.batをダブルクリックしてください。コーパスがXML形式に変換され,JLCCフォルダに格納されます。
+ 起動している『ひまわり』にJLCCフォルダをドラッグ&ドロップし,『ひまわり』にインポートします。ドラッグ&ドロップ後にオプション設定用のウィンドウが表示されます。&color(red){ウィンドウ左下の「詳細オプション」をクリックすると};,下図のようにすべてのオプションが表示されるので,次のように設定してください(赤枠部分はデフォルトからの変更箇所)。
#br
#ref(./jlcc_import_options1.png,wrap,70%)
#br
+ インポートが成功したら,変換フォルダのPackageフォルダを『ひまわり』にドラッグ&ドロップしてください。『日本語学習者作文コーパス』用の設定ファイルなどがインストールされます。
+ 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。
+ 以上で終了です。これで『日本語学習者作文コーパス』が使える状態になります。なお,『ひまわり』にインストールされている言語資料を選択するには,[ファイル]→[コーパス選択]で行ってください。『日本語学習者作文コーパス』もあるはずです。

* 4.使い方 [#j4398ff6]
- 『日本語学習者作文コーパス』の詳細については,[[HP>http://sakubun.jpn.org/]]を参照してください。
- 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]や[[マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_7]]などを参考にしてください。
- 検索文字列欄の左のメニューで検索方法を選択してください。
--「全文」
--「全文(正規表現)」
--「書字形(正規表現)」
--「語彙素」
--「語彙素読み」
--「品詞」
--「添削」
- 検索結果をクリックすると,当該の作文全体がWebブラウザで表示されます。
-- 検索文字列は,赤い文字で表示されます。
-- 話者にカーソルをあわせると,単語の情報がポップアップで表示されます。

- 実行例(ブラウザで表示中の作文はCG052)
#br
#ref(./jlcc_demo.png,wrap,50%)
#br



* 謝辞 [#o28ef02a]
 有用な言語資源を公開してくださった「自然言語処理の技術を利用したタグ付き学習者作文コーパスの開発」科研グループに感謝いたします。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS