[PukiWiki]

全文検索システム『ひまわり』/BNCの利用

Top/全文検索システム『ひまわり』/BNCの利用

全文検索システム『ひまわり』

本ページの内容は実験的なものです

1.概要†

 このページでは,BNCコーパス (XML edition) のXMLデータを『ひまわり』で利用する方法について説明します。本ページの内容は,英語コーパスに『ひまわり』を適用する,実験的なものです。そのため,次の点をご承知おきください。

  • BNCコーパスの書き言葉部分のみを扱います。
  • 『ひまわり』は日本語のコーパスの検索を目的に設計されているため,検索結果やインターフェイスが使いづらいかもしれません。
  • 変換処理に2時間半程度かかります。
  • 本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。
↑

2.準備†

(ビデオチュートリアルも用意しました。チュートリアル一覧も適宜参照してください)

  1. PC
    • Windowsの場合は,64ビット版を使うことが望ましい。動作の確認は,Windows10(64ビット版),Ubuntu 20.04で確認しています。
    • メモリは8GB以上あることが望ましい。
    • 変換処理を含め,20GB程度のディスクを使用します。SSDなどの高速なディスクを使うことが望ましいです。
  2. 『ひまわり』(ver.1.6.7以上)をインストールしてください。
  3. British National Corpus, XML editionの「Download all local files for this item」ボタンを押して,Zipファイルをダウンロード・展開(解凍)してください。上記データの出典の表示は,次のとおりです。
    • BNC Consortium, 2007, British National Corpus, XML edition, Oxford Text Archive, http://hdl.handle.net/20.500.12024/2554.
  4. 展開したファイルに含まれる 2554.zip を展開(解凍)してください。この中に,downloadフォルダがあることを確認してください。
  5. 変換パッケージをダウロード・展開(解凍)してください。
    • 変換パッケージ (20201011)
  6. 展開後の変換パッケージの中にある次のファイルをBNCのdownloadフォルダにコピーし,実行してください。
    • Windows の場合,const_bnc_w_windows.bat (末尾の.batは表示されない場合もあります)をコピー後,ダブルクリックします。
    • それ以外の場合は,const_bnc_w.sh をコピーし,実行してください。
  7. 実行が完了すると,downloadフォルダの中にBNC_WRITTENというフォルダが作成され,書き言葉のデータだけがこのフォルダの中に移動されます。フォルダのプロパティを見るなどして,3141個のファイルが格納されていることを確認してください。BNC_WRITTENフォルダができていない場合は,F5キーを押してみてください。
↑

3 変換手順†

  1. 『ひまわり』を起動してください。
  2. 変換パッケージのZipファイルを『ひまわり』にドラッグ&ドロップしてください。変換用のスクリプトなどが『ひまわり』にインストールされます。
  3. 起動している『ひまわり』に BNC_WRITTEN フォルダをドラッグ&ドロップして,BNCのXMLファイルを『ひまわり』にインポートします。ダウンロードしたファイルの扱いは,BNCのライセンスに
    1. 次のウィンドウが立ち上がったら,「詳細オプション」を押してください。
       
      bnc_import1a.png
       
    2. 赤枠の部分のように設定して,ウィンドウ下部の「インポート」ボタンを押してください。上書き警告はOKしてください。
       
      bnc_import3a.png
       
  4. インポートが開始されます。インポートが終了すると,3141個のファイルがインポートされたと表示されるはずです。
    • この処理には,20分程度分(Intel Corei5 2GHzx4,メモリ6GB,SSD,Windows10の場合)かかります。
    • Windowsの場合,インポートの経過は,黒いウィンドウに表示されます。
  5. 再度,変換パッケージのZipファイルを『ひまわり』にドラッグ&ドロップしてください。上書きの警告が出ますが,OKしてください。
  6. 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この際,「すべて初期化」オプションにチェックが入っていることを確認してください。
    • この処理には,100分程度(同上)かかります。
    • Windowsの場合,インデックス作成の過程は,黒いウィンドウに表示されます。
  7. 「インデックス生成処理が正常に終了しました」と出れば,完成です。
↑

4.使い方†

  • 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「BNC_WRITTEN」を選択してください。
  • 『ひまわり』の使い方については, ビデオチュートリアルやマニュアルなどを参考にしてください。
  • 検索は基本的に単語検索のみです。
    • w/@hw, w/@pos, w/@c5 については,BNCのマニュアルを参照してください。なお,なお,w/@tはw要素の末尾の空白を除いた文字列(出現形に相当)です。
    • 文字列の照合は,完全一致です。
       
      bnc_search1a.png
       
  • 検索結果例
    • 「t2」「-t2」などはそれぞれ検索語の2語後,2語前を表します。
    • 検索結果をダブルクリックすると,当該の文書全体がWebブラウザで表示されます。赤い字は検索語です。なお,Windows Edgeの古い版(Chromeベースでない版)では,正しく表示されない場合があります。
 
bnc_search2.png
 
↑

5.その他†

  • 品詞での検索や出現頻度が高い語を検索する場合は,「検索オプション」タブ→「抽出」タブ→抽出数上限を設定するか,フィルタを利用してみてください。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-05-15
    • 観察支援ツール FishWatchr
    2025-04-08
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS
    2024-11-21
    • 成果物の短縮URL
    2024-06-11
    • 観察支援ツール FishWatchr/既知の問題

total:2440
today:1
yesterday:4

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-10-11 (日) 20:51:01