[PukiWiki]

全文検索システム『ひまわり』/『日本語学習者作文コーパス』の利用

Top/全文検索システム『ひまわり』/『日本語学習者作文コーパス』の利用

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2023-01-31(公開)
 

1.概要†

 このページでは,『日本語学習者作文コーパス』を『ひまわり』で利用する方法(Windows環境のみ)について説明します。

  • 『ひまわり』の機能を利用できる(全文検索,単語検索,各種集計機能など)
  • 検索システム中のデータ(XMLデータ)を確認・検証・(必要ならば)変更できる

 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。

↑

2.準備†

 (ビデオチュートリアルもご覧ください)

  1. 使用するPCでプログラミング言語Perlを使えるようにしてください。
    • 参考: Strawberry Perlのダウンロード及びインストール(Javadrive)
  2. 『ひまわり』をインストールしてください。
  3. 変換パッケージをダウンロードし,展開してください。以後,展開したフォルダを「変換フォルダ」とします。
    • 変換パッケージ (2023-01-31)
  4. 『日本語学習者作文コーパス』のHPを開き,「利用者登録」を行ってください。
  5. 「使い方を見る」のページを開き,「全文データをダウンロードする」から「data.zip」をダウンロード・展開し,次の処理をしてください。
    • morphフォルダを変換フォルダにコピー
    • register.xlsをExcelで読み込み,[ファイル]→[名前をつけて保存]を実行し,「Unicodeテキスト」形式で保存してください。さらに,保存した結果(register.txt)を変換フォルダにコピーしてください。なお,Excel以外を用いる場合は,タブ区切り・UTF-16 BOMなしとなるよう,保存してください。
↑

3 変換手順†

  1. 変換フォルダにあるhenkan.batをダブルクリックしてください。コーパスがXML形式に変換され,JLCCフォルダに格納されます。
  2. 起動している『ひまわり』にJLCCフォルダをドラッグ&ドロップし,『ひまわり』にインポートします。ドラッグ&ドロップ後にオプション設定用のウィンドウが表示されます。ウィンドウ左下の「詳細オプション」をクリックすると,下図のようにすべてのオプションが表示されるので,次のように設定してください(赤枠部分はデフォルトからの変更箇所)。
     
    jlcc_import_options1.png
     
  3. インポートが成功したら,変換フォルダのPackageフォルダを『ひまわり』にドラッグ&ドロップしてください。『日本語学習者作文コーパス』用の設定ファイルなどがインストールされます。
  4. 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。
  5. 以上で終了です。これで『日本語学習者作文コーパス』が使える状態になります。なお,『ひまわり』にインストールされている言語資料を選択するには,[ファイル]→[コーパス選択]で行ってください。『日本語学習者作文コーパス』もあるはずです。
↑

4.使い方†

  • 『日本語学習者作文コーパス』の詳細については,HPを参照してください。
  • 『ひまわり』の使い方については, ビデオチュートリアルやマニュアルなどを参考にしてください。
  • 検索文字列欄の左のメニューで検索方法を選択してください。
    • 「全文」
    • 「全文(正規表現)」
    • 「書字形(正規表現)」
    • 「語彙素」
    • 「語彙素読み」
    • 「品詞」
    • 「添削」
  • 検索結果をクリックすると,当該の作文全体がWebブラウザで表示されます。
    • 検索文字列は,赤い文字で表示されます。
    • 話者にカーソルをあわせると,単語の情報がポップアップで表示されます。
  • 実行例(ブラウザで表示中の作文はCG052)
     
    jlcc_demo.png
     
↑

謝辞†

 有用な言語資源を公開してくださった「自然言語処理の技術を利用したタグ付き学習者作文コーパスの開発」科研グループに感謝いたします。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2023-03-26
    • 全文検索システム『ひまわり』/『日本語日常会話コーパス』/Windows
    2023-03-25
    • 全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ/履歴
    • TEachOtherS
    • 全文検索システム『ひまわり』
    2023-03-24
    • 全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ
    2023-03-15
    • 全文検索システム『ひまわり』/JASWRICの利用/履歴
    • 全文検索システム『ひまわり』/JASWRICの利用
    2023-03-14
    • 全文検索システム『ひまわり』/履歴
    2023-03-13
    • 全文検索システム『ひまわり』/ビデオチュートリアル
    2023-02-28
    • 講習会/全文検索システム『ひまわり』講習会 (2023-02-27)

total:287
today:6
yesterday:2

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-02-08 (水) 15:52:45