[PukiWiki]

全文検索システム『ひまわり』/JASWRICの利用

Top/全文検索システム『ひまわり』/JASWRICの利用

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2023-03-15(更新),2022-12-19(公開)
 

1.概要†

 このページでは,小中高大生による日本語絵描写ストーリーライティングコーパス(JASWRIC)[JASWRIC_tagged版]を『ひまわり』で利用する方法について説明します(Windows環境以外は簡易的な説明のみ)。この方法の利点は,次のとおりです。

  • 『ひまわり』の機能を利用できる(全文検索,単語検索,各種集計機能など)
  • 検索システム中のデータ(XMLデータ)を確認・検証・(必要ならば)変更できる

 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。

↑

2.準備†

  1. 使用するPCでプログラミング言語Perlを使えるようにしてください。
    • 参考: Strawberry Perlのダウンロード及びインストール(Javadrive)
  2. 『ひまわり』をインストールしてください。
  3. 変換パッケージをダウンロードし,展開してください。以後,展開したフォルダを「変換フォルダ」とします。
    • 変換パッケージ (2023-03-15,履歴)
    • GitHubにも公開しています。
  4. JASWRICのHPの「JASWRICダウンロード版の入手方法」を参照し,JASWRIC_1.1.zipを入手してください。
  5. JASWRIC_1.1.zip を展開し,次の処理を行ってください。
    1. JASWRIC_Tagged_v.1.1.xlsx, JASWRIC_Participant Survey.xlsxをそれぞれExcelで読み込み,[ファイル]→[名前をつけて保存]を実行してください。保存の形式は,「Unicodeテキスト(*.txt)」形式です。
    2. 次のファイル,フォルダを変換フォルダ中のScriptフォルダにコピーしてください。
      • 上の保存結果の2ファイル(JASWRIC_Tagged_v1.1.txt, JASWRIC_Participant Survey.txt)
      • Raw Data フォルダの中の Scannedフォルダ
 
folder_root.pngfolder_script2.png
変換フォルダScriptフォルダ
 
↑

3 変換手順†

  1. Script フォルダにある henkan.bat をダブルクリックすると,『ひまわり』形式のデータへ変換が行われます。
    • Windows環境以外での実行方法は,本ページ末尾の付録を参照してください。
    • 変換に際しては,JASWRIC_Tagged_v1.1.txtから単語の情報を,JASWRIC_Participant_Survey.txtから作文の著者の情報を利用していますが,特別な変更は加えていません。
  2. 『ひまわり』を起動してください。
  3. 変換フォルダ中のPackageフォルダを『ひまわり』にドラッグ&ドロップしてください。
  4. 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。環境によって異なりますが,数分程度かかります。
  5. 以上で終了です。これでJASWRICが使える状態になります。なお,『ひまわり』にインストールされている言語資料を選択するには,[ファイル]→[コーパス選択]で行ってください。「(JASWRIC)小中高大生による日本語絵描写ストーリーライティングコーパス」もあるはずです。
↑

4.使い方†

  • JASWRICの詳細については,HPの他,次の参考文献を参照してください。
    • 石川慎一郎・友永達也・大西遼平・岡本利昭・勝部尚樹・川嶋久予・岸本達也・村中礼子(2022)「『小中高大生による日本語絵描写ストーリーライティングコーパス』(JASWRIC)の構築:L1/L2日本語研究の新しい資料として」『言語資源ワークショップ発表論文集』7.
  • 『ひまわり』の使い方については, ビデオチュートリアルやマニュアルなどを参考にしてください。
  • 検索文字列欄の左のメニューで検索方法を選択してください。
    • 「全文」
    • 「全文(正規表現,文相当)」
    • 「全文(正規表現,短単位)」
    • 「語彙素」
    • 「書字形(基本形)」
    • 「品詞」
  • 検索結果をクリックすると,当該の作文全体がWebブラウザで表示されます。
    • 検索文字列は,赤い文字で表示されます。
    • 話者にカーソルをあわせると,単語の情報がポップアップで表示されます。
  • 実行例(ブラウザで表示中の作文はG01_Key_001)
     
    jaswric_no_blur.png
     
↑

謝辞†

 有用な言語資源を公開してくださった神戸大学石川慎一郎研究室のみなさまに感謝いたします。

↑

付録†

  • Windows以外での変換の実行方法
    perl JASWRIC2Himawari.pl JASWRIC_Participant_Survey.txt JASWRIC\ Tagged_v1.1.txt Scanned > ../Package/Corpora/JASWRIC/corpus.xml

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2023-03-26
    • 全文検索システム『ひまわり』/『日本語日常会話コーパス』/Windows
    2023-03-25
    • 全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ/履歴
    • TEachOtherS
    • 全文検索システム『ひまわり』
    2023-03-24
    • 全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ
    2023-03-15
    • 全文検索システム『ひまわり』/JASWRICの利用/履歴
    • 全文検索システム『ひまわり』/JASWRICの利用
    2023-03-14
    • 全文検索システム『ひまわり』/履歴
    2023-03-13
    • 全文検索システム『ひまわり』/ビデオチュートリアル
    2023-02-28
    • 講習会/全文検索システム『ひまわり』講習会 (2023-02-27)

total:355
today:1
yesterday:1

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-03-15 (水) 14:57:00