[PukiWiki]

全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用

Top/全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2022-12-06(更新)/2020-08-25(公開)
 

1.概要†

 このページでは,日本語諸方言コーパス (COJADS)のCSVデータを『ひまわり』で利用する方法について説明します。

 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。

↑

2.準備†

  1. データ配布のページを参照し,「無償版COJADS」の Ver.2022.03_cojads無償版.zip を入手してください。
  2. Ver.2022.03_cojads無償版.zip を展開し,「3.csv_utf8_配布用_Ver.2022.03」フォルダがあることを確認してください。
  3. 「COJADS→『ひまわり』変換パッケージ」をダウンロードしてください。
    • COJADS→『ひまわり』変換パッケージ (2022-11-30)
  4. 『ひまわり』をインストールしてください。
↑

3 変換手順†

  1. 『ひまわり』を起動してください。
  2. 変換パッケージ(cojads2himawari_20221130.zipなど)を『ひまわり』にドラッグ&ドロップしてください。
    • なお,上書きの警告がでますが,無視してかまいません。
  3. 「3.csv_utf8_配布用_Ver.2022.03」フォルダを『ひまわり』にドラッグ&ドロップしてください。
  4. 出現したウィンドウ左下に「詳細オプション」がありますので,次のように設定してください。
    • 「コーパス名」欄を半角の「COJADS」に変更(「詳細オプション」の上)
    • 「テキスト変換」を「cojads_sample.htd」に変更
    • 「コーパス構築」の「索引付けを実行しない」にチェックを入れる
  5. 「インポート」ボタンを押して,インポートを実行してください。
    • 「インポートが正常に終了しました」となれば,OKです。
  6. 再び,変換パッケージを『ひまわり』にドラッグ&ドロップしてください。
    • 今回も上書きの警告がでますが,無視してかまいません。
  7. 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この処理には,数分かかります。
  8. 以上で終了です。
↑

4.使い方†

  • 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「日本語諸方言コーパス(COJADS)」を選択してください。
  • 『ひまわり』の使い方については, ビデオチュートリアルやマニュアルなどを参考にしてください。
  • 検索文字列欄の左のメニューで「標準語」「方言」「標準語(正規表現)」「方言(正規表現)」を選択できます。正規表現検索は,通常の検索よりも低速です。
  • 検索結果は,CSVデータの列と同じになるようになっています。
     
    himawari_cojads.png
     
  • 検索結果をクリックすると,Webブラウザで対話全体が表示されます。
    • 検索文字列は,赤い文字で表示されます。
    • 話者にカーソルをあわせると,生年,年齢,性別がポップアップ表示されます。
 
browse_cojads.png
 

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-05-15
    • 観察支援ツール FishWatchr
    2025-04-08
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS
    2024-11-21
    • 成果物の短縮URL
    2024-06-11
    • 観察支援ツール FishWatchr/既知の問題

total:3123
today:1
yesterday:1

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-12-06 (火) 14:32:13