[PukiWiki]

全文検索システム『ひまわり』/BNCの利用 の変更点

Top/全文検索システム『ひまわり』/BNCの利用

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 全文検索システム『ひまわり』/BNCの利用 へ行く。
  • 全文検索システム『ひまわり』/BNCの利用 の差分を削除

#author("2020-10-12T01:45:19+00:00;2020-10-11T11:51:01+00:00","default:rd","rd")
#author("2020-11-26T13:28:16+00:00;2020-10-11T11:51:01+00:00","default:rd","rd")
[[全文検索システム『ひまわり』]]


//&size(20){&color(red){本ページは現在構築中です};};

&size(20){&color(red){本ページの内容は実験的なものです};};


* 1.概要 [#p126ba21]
 このページでは,[[BNCコーパス>http://www.natcorp.ox.ac.uk/]] (XML edition) のXMLデータを『ひまわり』で利用する方法について説明します。本ページの内容は,英語コーパスに『ひまわり』を適用する,実験的なものです。&color(red){そのため,次の点をご承知おきください。};
-- BNCコーパスの書き言葉部分のみを扱います。
-- 『ひまわり』は日本語のコーパスの検索を目的に設計されているため,検索結果やインターフェイスが使いづらいかもしれません。
-- 変換処理に2時間半程度かかります。
-- 本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。


* 2.準備 [#a003392e]
//([[ビデオチュートリアル>https://youtu.be/URmnO7XTWeo]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も参照してください)
([[ビデオチュートリアル>https://youtu.be/URmnO7XTWeo]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も適宜参照してください)

+ PC
-- Windowsの場合は,64ビット版を使うことが望ましい。動作の確認は,Windows10(64ビット版),Ubuntu 20.04で確認しています。
-- メモリは8GB以上あることが望ましい。
-- 変換処理を含め,20GB程度のディスクを使用します。SSDなどの高速なディスクを使うことが望ましいです。
+ 『ひまわり』(ver.1.6.7以上)をインストールしてください。
+ [[British National Corpus, XML edition>https://ota.bodleian.ox.ac.uk/repository/xmlui/handle/20.500.12024/2554]]の「Download all local files for this item」ボタンを押して,Zipファイルをダウンロード・展開(解凍)してください。上記データの出典の表示は,次のとおりです。
-- BNC Consortium, 2007, British National Corpus, XML edition, Oxford Text Archive, http://hdl.handle.net/20.500.12024/2554. 
+ 展開したファイルに含まれる 2554.zip を展開(解凍)してください。この中に,downloadフォルダがあることを確認してください。
+ 変換パッケージをダウロード・展開(解凍)してください。
-- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/bnc2himawari_20201011.zip]] (20201011)
+ 展開後の変換パッケージの中にある次のファイルをBNCのdownloadフォルダにコピーし,実行してください。
-- Windows の場合,const_bnc_w_windows.bat (末尾の.batは表示されない場合もあります)をコピー後,ダブルクリックします。
-- それ以外の場合は,const_bnc_w.sh をコピーし,実行してください。
+ 実行が完了すると,downloadフォルダの中にBNC_WRITTENというフォルダが作成され,書き言葉のデータだけがこのフォルダの中に移動されます。フォルダのプロパティを見るなどして,3141個のファイルが格納されていることを確認してください。BNC_WRITTENフォルダができていない場合は,F5キーを押してみてください。


*3 変換手順 [#ka191cce]
+ 『ひまわり』を起動してください。
+ 変換パッケージのZipファイルを『ひまわり』にドラッグ&ドロップしてください。変換用のスクリプトなどが『ひまわり』にインストールされます。
+ 起動している『ひまわり』に BNC_WRITTEN フォルダをドラッグ&ドロップして,BNCのXMLファイルを『ひまわり』にインポートします。ダウンロードしたファイルの扱いは,BNCのライセンスに
++ 次のウィンドウが立ち上がったら,「詳細オプション」を押してください。
#br
#ref(./bnc_import1a.png,85%)
#br
++ 赤枠の部分のように設定して,ウィンドウ下部の「インポート」ボタンを押してください。上書き警告はOKしてください。
#br
#ref(./bnc_import3a.png,85%)
#br
+ インポートが開始されます。インポートが終了すると,3141個のファイルがインポートされたと表示されるはずです。
-- この処理には,20分程度分(Intel Corei5 2GHzx4,メモリ6GB,SSD,Windows10の場合)かかります。
-- Windowsの場合,インポートの経過は,黒いウィンドウに表示されます。
+ &color(red){再度,変換パッケージのZipファイルを『ひまわり』にドラッグ&ドロップしてください。};上書きの警告が出ますが,OKしてください。
+ 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この際,「すべて初期化」オプションにチェックが入っていることを確認してください。
-- この処理には,100分程度(同上)かかります。
-- Windowsの場合,インデックス作成の過程は,黒いウィンドウに表示されます。
+ 「インデックス生成処理が正常に終了しました」と出れば,完成です。

* 4.使い方 [#y71cb09f]

- 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「BNC_WRITTEN」を選択してください。
- 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。
- 検索は基本的に単語検索のみです。
-- w/@hw, w/@pos, w/@c5 については,[[BNCのマニュアル>http://www.natcorp.ox.ac.uk/docs/URG/cdifbase.html#cdifcomp]]を参照してください。なお,なお,w/@tはw要素の末尾の空白を除いた文字列(出現形に相当)です。
-- 文字列の照合は,完全一致です。
#br
#ref(./bnc_search1a.png,wrap,85%)
#br
- 検索結果例
-- 「t2」「-t2」などはそれぞれ検索語の2語後,2語前を表します。
-- 検索結果をダブルクリックすると,当該の文書全体がWebブラウザで表示されます。赤い字は検索語です。なお,Windows Edgeの古い版(Chromeベースでない版)では,正しく表示されない場合があります。

#br
#ref(./bnc_search2.png,70%)
#br

* 5.その他 [#mf5f60b8]
- 品詞での検索や出現頻度が高い語を検索する場合は,「検索オプション」タブ→「抽出」タブ→抽出数上限を設定するか,フィルタを利用してみてください。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS