全文検索システム『ひまわり』/BNCの利用の変更点

追加された行はこの色です。
削除された行はこの色です。
全文検索システム『ひまわり』/BNCの利用へ行く。
全文検索システム『ひまわり』/BNCの利用の差分を削除
#author("2020-10-12T01:45:19+00:00;2020-10-11T11:51:01+00:00","default:rd","rd")
#author("2020-11-26T13:28:16+00:00;2020-10-11T11:51:01+00:00","default:rd","rd")
[[全文検索システム『ひまわり』]]


//&size(20){&color(red){本ページは現在構築中です};};

&size(20){&color(red){本ページの内容は実験的なものです};};


* １．概要 [#p126ba21]
　このページでは，[[BNCコーパス>http://www.natcorp.ox.ac.uk/]] (XML edition) のXMLデータを『ひまわり』で利用する方法について説明します。本ページの内容は，英語コーパスに『ひまわり』を適用する，実験的なものです。&color(red){そのため，次の点をご承知おきください。};
-- BNCコーパスの書き言葉部分のみを扱います。
-- 『ひまわり』は日本語のコーパスの検索を目的に設計されているため，検索結果やインターフェイスが使いづらいかもしれません。
-- 変換処理に2時間半程度かかります。
-- 本ページの内容を利用することにより直接的，間接的に生じたいかなる損害についても，保証しません。


* ２．準備 [#a003392e]
//（[[ビデオチュートリアル>https://youtu.be/URmnO7XTWeo]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も参照してください）
（[[ビデオチュートリアル>https://youtu.be/URmnO7XTWeo]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も適宜参照してください）

+ PC
-- Windowsの場合は，64ビット版を使うことが望ましい。動作の確認は，Windows10(64ビット版），Ubuntu 20.04で確認しています。
-- メモリは8GB以上あることが望ましい。
-- 変換処理を含め，20GB程度のディスクを使用します。SSDなどの高速なディスクを使うことが望ましいです。
+ 『ひまわり』(ver.1.6.7以上)をインストールしてください。
+ [[British National Corpus, XML edition>https://ota.bodleian.ox.ac.uk/repository/xmlui/handle/20.500.12024/2554]]の「Download all local files for this item」ボタンを押して，Zipファイルをダウンロード・展開（解凍）してください。上記データの出典の表示は，次のとおりです。
-- BNC Consortium, 2007, British National Corpus, XML edition, Oxford Text Archive, http://hdl.handle.net/20.500.12024/2554. 
+ 展開したファイルに含まれる 2554.zip を展開（解凍）してください。この中に，downloadフォルダがあることを確認してください。
+ 変換パッケージをダウロード・展開（解凍）してください。
-- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/bnc2himawari_20201011.zip]] (20201011)
+ 展開後の変換パッケージの中にある次のファイルをBNCのdownloadフォルダにコピーし，実行してください。
-- Windows の場合，const_bnc_w_windows.bat (末尾の.batは表示されない場合もあります)をコピー後，ダブルクリックします。
-- それ以外の場合は，const_bnc_w.sh をコピーし，実行してください。
+ 実行が完了すると，downloadフォルダの中にBNC_WRITTENというフォルダが作成され，書き言葉のデータだけがこのフォルダの中に移動されます。フォルダのプロパティを見るなどして，3141個のファイルが格納されていることを確認してください。BNC_WRITTENフォルダができていない場合は，F5キーを押してみてください。


*3 変換手順 [#ka191cce]
+ 『ひまわり』を起動してください。
+ 変換パッケージのZipファイルを『ひまわり』にドラッグ＆ドロップしてください。変換用のスクリプトなどが『ひまわり』にインストールされます。
+ 起動している『ひまわり』に BNC_WRITTEN フォルダをドラッグ＆ドロップして，BNCのXMLファイルを『ひまわり』にインポートします。ダウンロードしたファイルの扱いは，BNCのライセンスに
++ 次のウィンドウが立ち上がったら，「詳細オプション」を押してください。
#br
#ref(./bnc_import1a.png,85%)
#br
++ 赤枠の部分のように設定して，ウィンドウ下部の「インポート」ボタンを押してください。上書き警告はOKしてください。
#br
#ref(./bnc_import3a.png,85%)
#br
+ インポートが開始されます。インポートが終了すると，3141個のファイルがインポートされたと表示されるはずです。
-- この処理には，20分程度分（Intel Corei5 2GHzx4，メモリ6GB，SSD,Windows10の場合）かかります。
-- Windowsの場合，インポートの経過は，黒いウィンドウに表示されます。
+ &color(red){再度，変換パッケージのZipファイルを『ひまわり』にドラッグ＆ドロップしてください。};上書きの警告が出ますが，OKしてください。
+ 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この際，「すべて初期化」オプションにチェックが入っていることを確認してください。
-- この処理には，100分程度（同上）かかります。
-- Windowsの場合，インデックス作成の過程は，黒いウィンドウに表示されます。
+ 「インデックス生成処理が正常に終了しました」と出れば，完成です。

* ４．使い方 [#y71cb09f]

- 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「BNC_WRITTEN」を選択してください。
- 『ひまわり』の使い方については， [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。
- 検索は基本的に単語検索のみです。
-- w/@hw, w/@pos, w/@c5 については，[[BNCのマニュアル>http://www.natcorp.ox.ac.uk/docs/URG/cdifbase.html#cdifcomp]]を参照してください。なお，なお，w/@tはw要素の末尾の空白を除いた文字列（出現形に相当）です。
-- 文字列の照合は，完全一致です。
#br
#ref(./bnc_search1a.png,wrap,85%)
#br
- 検索結果例
-- 「t2」「-t2」などはそれぞれ検索語の２語後，２語前を表します。
-- 検索結果をダブルクリックすると，当該の文書全体がWebブラウザで表示されます。赤い字は検索語です。なお，Windows Edgeの古い版（Chromeベースでない版）では，正しく表示されない場合があります。

#br
#ref(./bnc_search2.png,70%)
#br

* ５．その他 [#mf5f60b8]
- 品詞での検索や出現頻度が高い語を検索する場合は，「検索オプション」タブ→「抽出」タブ→抽出数上限を設定するか，フィルタを利用してみてください。
全文検索システム『ひまわり』/BNCの利用 の変更点