#author("2020-10-12T01:45:19+00:00;2020-10-11T11:51:01+00:00","default:rd","rd") #author("2020-11-26T13:28:16+00:00;2020-10-11T11:51:01+00:00","default:rd","rd") [[全文検索システム『ひまわり』]] //&size(20){&color(red){本ページは現在構築中です};}; &size(20){&color(red){本ページの内容は実験的なものです};}; * 1.概要 [#p126ba21] このページでは,[[BNCコーパス>http://www.natcorp.ox.ac.uk/]] (XML edition) のXMLデータを『ひまわり』で利用する方法について説明します。本ページの内容は,英語コーパスに『ひまわり』を適用する,実験的なものです。&color(red){そのため,次の点をご承知おきください。}; -- BNCコーパスの書き言葉部分のみを扱います。 -- 『ひまわり』は日本語のコーパスの検索を目的に設計されているため,検索結果やインターフェイスが使いづらいかもしれません。 -- 変換処理に2時間半程度かかります。 -- 本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。 * 2.準備 [#a003392e] //([[ビデオチュートリアル>https://youtu.be/URmnO7XTWeo]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も参照してください) ([[ビデオチュートリアル>https://youtu.be/URmnO7XTWeo]]も用意しました。[[チュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]も適宜参照してください) + PC -- Windowsの場合は,64ビット版を使うことが望ましい。動作の確認は,Windows10(64ビット版),Ubuntu 20.04で確認しています。 -- メモリは8GB以上あることが望ましい。 -- 変換処理を含め,20GB程度のディスクを使用します。SSDなどの高速なディスクを使うことが望ましいです。 + 『ひまわり』(ver.1.6.7以上)をインストールしてください。 + [[British National Corpus, XML edition>https://ota.bodleian.ox.ac.uk/repository/xmlui/handle/20.500.12024/2554]]の「Download all local files for this item」ボタンを押して,Zipファイルをダウンロード・展開(解凍)してください。上記データの出典の表示は,次のとおりです。 -- BNC Consortium, 2007, British National Corpus, XML edition, Oxford Text Archive, http://hdl.handle.net/20.500.12024/2554. + 展開したファイルに含まれる 2554.zip を展開(解凍)してください。この中に,downloadフォルダがあることを確認してください。 + 変換パッケージをダウロード・展開(解凍)してください。 -- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/bnc2himawari_20201011.zip]] (20201011) + 展開後の変換パッケージの中にある次のファイルをBNCのdownloadフォルダにコピーし,実行してください。 -- Windows の場合,const_bnc_w_windows.bat (末尾の.batは表示されない場合もあります)をコピー後,ダブルクリックします。 -- それ以外の場合は,const_bnc_w.sh をコピーし,実行してください。 + 実行が完了すると,downloadフォルダの中にBNC_WRITTENというフォルダが作成され,書き言葉のデータだけがこのフォルダの中に移動されます。フォルダのプロパティを見るなどして,3141個のファイルが格納されていることを確認してください。BNC_WRITTENフォルダができていない場合は,F5キーを押してみてください。 *3 変換手順 [#ka191cce] + 『ひまわり』を起動してください。 + 変換パッケージのZipファイルを『ひまわり』にドラッグ&ドロップしてください。変換用のスクリプトなどが『ひまわり』にインストールされます。 + 起動している『ひまわり』に BNC_WRITTEN フォルダをドラッグ&ドロップして,BNCのXMLファイルを『ひまわり』にインポートします。ダウンロードしたファイルの扱いは,BNCのライセンスに ++ 次のウィンドウが立ち上がったら,「詳細オプション」を押してください。 #br #ref(./bnc_import1a.png,85%) #br ++ 赤枠の部分のように設定して,ウィンドウ下部の「インポート」ボタンを押してください。上書き警告はOKしてください。 #br #ref(./bnc_import3a.png,85%) #br + インポートが開始されます。インポートが終了すると,3141個のファイルがインポートされたと表示されるはずです。 -- この処理には,20分程度分(Intel Corei5 2GHzx4,メモリ6GB,SSD,Windows10の場合)かかります。 -- Windowsの場合,インポートの経過は,黒いウィンドウに表示されます。 + &color(red){再度,変換パッケージのZipファイルを『ひまわり』にドラッグ&ドロップしてください。};上書きの警告が出ますが,OKしてください。 + 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この際,「すべて初期化」オプションにチェックが入っていることを確認してください。 -- この処理には,100分程度(同上)かかります。 -- Windowsの場合,インデックス作成の過程は,黒いウィンドウに表示されます。 + 「インデックス生成処理が正常に終了しました」と出れば,完成です。 * 4.使い方 [#y71cb09f] - 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「BNC_WRITTEN」を選択してください。 - 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。 - 検索は基本的に単語検索のみです。 -- w/@hw, w/@pos, w/@c5 については,[[BNCのマニュアル>http://www.natcorp.ox.ac.uk/docs/URG/cdifbase.html#cdifcomp]]を参照してください。なお,なお,w/@tはw要素の末尾の空白を除いた文字列(出現形に相当)です。 -- 文字列の照合は,完全一致です。 #br #ref(./bnc_search1a.png,wrap,85%) #br - 検索結果例 -- 「t2」「-t2」などはそれぞれ検索語の2語後,2語前を表します。 -- 検索結果をダブルクリックすると,当該の文書全体がWebブラウザで表示されます。赤い字は検索語です。なお,Windows Edgeの古い版(Chromeベースでない版)では,正しく表示されない場合があります。 #br #ref(./bnc_search2.png,70%) #br * 5.その他 [#mf5f60b8] - 品詞での検索や出現頻度が高い語を検索する場合は,「検索オプション」タブ→「抽出」タブ→抽出数上限を設定するか,フィルタを利用してみてください。