[PukiWiki]

全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法2

Top/全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法2

全文検索システム『ひまわり』

 

現在,本コンテンツは,保守されていません。

 


注意:

『日本語話し言葉コーパス』(CSJ)は,第4刷から『ひまわり』用CSJパッケージを同梱して配布されています。すでに,第1〜3刷を購入されている方は,無料で差分ファイルが提供されますので,そちらもご検討下さい。詳しくは,申し込み手順のページをご覧ください。

 

1.はじめに†

  • 『日本語話し言葉コーパス』(CSJ)に含まれる形態論情報を『ひまわり』で検索する方法について説明します。なお,本資料の内容を実行する場合は,自己責任でお願いいたします。
  • メモリ上の問題から,64bit版の OS の利用を前提といたします。
  • 公開中の「『日本語話し言葉コーパス』を『ひまわり』で利用する方法」とは,主に次の点で異なります。
    • CSJの全データが対象となります。
    • (上記の制限はありますが)Java が動作する OS 上で動作します。
    • 正規表現検索の設定を追加しました。
↑

2.準備†

  • 『ひまわり』ver.1.5(β04以降) をインストールしてください。
  • 次のシステム要件を満たすか確認して下さい。
    • 64bit版OSを使用していること
      • (microsoft.com) 自分のパソコンが 32 ビット版か 64 ビット版かを確認したい
      • (apple.com) Intel ベースの Mac のプロセッサが 32 ビットか 64 ビットかを識別する方法
    • 64bit版の Java がインストールされていること
      1. 『ひまわり』フォルダの中の himawari.jar をダブルクリックし,『ひまわり』(ver.1.5β04以降)が起動するか確認して下さい。
      2. [ヘルプ]→[バージョン情報]の最終行に「64-Bit」という記載が含まれることを確認して下さい。含まれない場合は,Java の配布サイトから,適切なファイル(使用しているOS 用の 64 ビット版)をダウンロードし,インストールしてください。
    • メモリが4GB以上搭載されていること
  • CSJ第1刷をお持ちの方は「修正版 XML 文書」DVD をご用意ください。また第2刷・第3刷をお持ちの方は,2枚目のDVD(Volume2)をご用意ください。CSJ の入手方法については,『日本語話し言葉コーパス』のホームーページ をご覧ください。なお,『日本語話し言葉コーパス』サンプルデータを配布しておりますので,CSJ をまだお持ちでない方はお試しください。
  • CSJ→ひまわり変換パッケージ(csj2himawari_2.0.zip)をダウンロードしてください。
    • Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。
↑

3.ファイルのインポート†

 『日本語話し言葉コーパス』のXMLデータを『ひまわり』にインポートします。以下の手順で実行して下さい。

  1. csj2himawari_2.0.zip を解凍してください。解凍すると,CSJ2Himawari フォルダが現れるはずです。
  2. CSJ データのコピー
    • 第1刷・第2刷をお持ちの方は,「修正版 XML 文書」DVD(第1刷の方)あるいは2枚目の DVD (第2刷の方)の XML フォルダー中のファイルを,CSJ2Himawariフォルダ中の src フォルダにコピーしてください。
    • 第3刷をお持ちの方は,DVDセットの2枚目のXMLフォルダーのcoreフォルダの下にあるすべてのXMLファイル,および noncoreフォルダの下にあるすべてのXMLファイルを,CSJ2Himawari 中の src フォルダの中にコピーしてください。
  3. 配置コマンドの実行
    • 複数のサブコーパスに分割するために,コピーしたXMLファイルを適切なフォルダに配置します。分割は,次の基準で行いました。
      • 形態論情報の解析方法(人手/自動)
      • 音声タイプ (例:学会講演,模擬講演など)
      • 音声タイプの詳細情報(例:学会の別,模擬講演テーマの別など)
    • 次のファイルをダブルクリックして下さい。
      setup.bat ... Windows の場合
      setup.command ... MacOS X の場合
      setup.sh ... その他の場合(bash を利用)
    • コマンドが正常に終了すると,CSJ2Himawari/CSJ フォルダの中に合計27フォルダが作成され,該当する XML ファイルが配置されます。
      • Manual ... 人手形態論情報解析分用のフォルダ
      • AutomaticA01〜A11 ... 自動形態論情報解析分のフォルダ(音声タイプAの01〜11の11フォルダ)
      • AutomaticD, M, R ... 自動形態論情報解析分のフォルダ(音声タイプD, M,R の3フォルダ)
      • AutomaticS00〜S11 ... 自動形態論情報解析分のフォルダ(音声タイプSの00〜11の12フォルダ)
  4. インポートの実行
    1. 『ひまわり』を起動してください。
      • 『ひまわり』がインストールされているフォルダに移動し,コマンドラインから次のコマンドを実行して下さい。
        java -jar himawari.jar
      • コマンドラインからの実行方法がわからない場合は,CSJ2Himawari フォルダから次のファイルを『ひまわり』フォルダにコピーし,ダブルクリックして下さい。
        himawari_exec.bat ... Windows の場合
        himawari_exec.command ... MacOS X の場合
        himawari_exec.sh ... その他の場合(bash を利用)
    2. [ファイル]→[インポート]を実行すると,ウィンドウが現れますので,「変換対象データのフォルダ」欄に CSJ2Himawari フォルダを指定してください。
    3. [インポート]ボタンを押してください。1〜2時間程度で変換が終了します。

 以上で,データのインポートは終了です。『ひまわり』での動作が確認されれば,CSJ2Himawari フォルダは削除してもかまいません。

↑

4.使い方†

 ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルをご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。なお,閲覧には,Adobe 社の Adobe Reader が必要です。Adobe 社の Web ページで無償配布しています

  • 「形態論情報の概要」
  • 「短単位・長単位データマニュアル」の3.2 節
  • 「節単位認定」
  • 「転記テキスト」
  • 『日本語話し言葉コーパス』の概観
  • 「音声収録作業の概要」
↑

4.1『日本語話し言葉コーパス』を検索対象にするには†

 『日本語話し言葉コーパス』用の設定ファイルは,config_csj_all.xml です。このファイルを[ファイル]→[新規]で読み込むと,『日本語話し言葉コーパス』が検索対象になります。なお,インポートした直後は,『日本語話し言葉コーパス』が検索対象になっています。

↑

4.2 サブコーパスの選択†

 コーパス選択機能を用いて,サブコーパスを選択します。ここに表示されるサブコーパスは,3節で配置したフォルダ構造と対応します。なお,サブコーパス名の略号(例:「A01」)については,『日本語話し言葉コーパス』の概観の「2.8 ファイルの命名」,および,音声収録作業の概要をご覧ください。

↑

4.3 検索対象の詳細†

 次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

  • 全文:
    形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される品詞などの短単位に関する情報は,検索文字列の先頭の文字列を内部に含む短単位のものです。
  • 全文(正規表現):
    形態論情報を考慮せずに,全文検索します。「全文」との相違点は,検索文字列に正規表現が使用できることです。ただし,「全文」と比較して,低速です。
  • 短単位(要素単位):
    • 短単位のレベルで検索します。
    • 例えば,上記の「全文」を選択し,「国語」を検索すると,「中国/語」のように,複数の単位にまたがる単位が検索されますが(/ は,短単位の切れ目を表す),「短単位(要素単位)」では,短単位内に限定して,文字列の照合を行います。したがって,「中国/語」のような例を排除して,検索することができます。
  • 品詞(属性):
    品詞をキーとして検索します。文字列の照合には,正規表現を使います。
  • 代表形(属性):
    代表形をキーとして検索します。文字列の照合には,正規表現を使います。
  • 節境界(属性):
    節境界情報をキーとして検索します。文字列の照合には,正規表現を使います。
↑

4.4 転記テキストの閲覧†

 検索結果をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • / : 短単位の区切り
  • | : 長単位の区切り
  • $ : 節境界
  • 検索文字列は,赤色で表示されます。
  • 個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
  • 長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。
  • 節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。
 
csj_manual_sample_browse.png
 

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS

total:3427
today:1
yesterday:2

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-09-07 (火) 15:15:50