[[全文検索システム『ひまわり』]]
&color(red){&size(20){本ページは作成中です。};};
目次
#contents
*1.はじめに [#f8ad28fc]
-『青空文庫』(テキスト版)を例に,テキストファイルを『ひまわり』にインポートする方法を説明します。
-『ひまわり』ver.1.5 を使用します。ver.1.3 では動作しません。
-作業環境として,Windows 環境を想定しています。
*2.用意するもの [#aa9649a3]
-[[『ひまわり』 ver.1.5 >全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.5]]のインストール
-テキストエディタ ... 以下のテキストファイルの編集ができるもの
--文字コード: Unicode (UTF-16 Byte Order Mark 付き)
--改行コード: LF
--例: [[サクラエディタ(ver.2.x)>http://sakura-editor.sourceforge.net/]], [[秀丸エディタ>http://hide.maruo.co.jp/software/hidemaru.html]]
--なお,上記以外のテキストエディタをお使いの方は,次の条件のファイルを作成できるエディタをご用意ください。お使いのエディタで作成できない場合は,文字コード変換プログラムを利用して,文字コードと改行コードを変換してください。
- 検索用テキストファイルのサンプルアーカイブ
*3.作成手順 [#ecb6e274]
**3.1 検索用テキストファイルの収集 [#u8c87c7c]
まず,検索用のテキストファイルを集めます。ここで対象とする「テキストファイル」とは,ファイル名が「〜.txt」というように,「.txt」で終わるファイルのことです。今回は,簡単のためにサンプルアーカイブを用意しました。アーカイブを解凍し,次のようなフォルダの構造で,四つの作品が収録されていることを確認してください。
+ 青空サンプル
+- 芥川竜之介
| +- 蜘蛛の糸.txt
| +- 羅生門.txt
|
+- 宮沢賢治
+- 風の又三郎.txt
+- 銀河鉄道の夜.txt
もちろん,自分でテキストファイルを収集したり,テキストエディタで作成したりしてもかまいません。ただし,その際は,上記のように,一つのフォルダの中にファイルをまとめてください。また,著者名をフォルダ名に,作品名をファイル名にすると,著者名,作品名を検索のときに利用できます。ファイル名の末尾は,「.txt」にすることにも注意してください。
なお,『青空文庫』の作品を収集する場合は,「ファイル種別」が「テキストファイル」のデータをダウンロードして下さい。次の図は,芥川竜之介の「[[芋粥>http://www.aozora.gr.jp/cards/000879/card55.html]]」のダウンロードベージです。
#ref(./text_download.png,center,wrap,100%,テキストのダウンロード);
** 3.2 『ひまわり』へのインポート [#fb9449db]
上記の四つのファイルを『ひまわり』にインポートします。インポートするには,[ファイル]→インポートを実行してください。
#ref(./import_menu.png,center,wrap,90%,インポートの実行);
すると,次のウィンドウが現れますので,「参照」ボタンを押して,検索用のテキストファイルをまとめたフォルダ(上記の場合は,「青空サンプル」フォルダ)を選択して下さい。選択すると,自動的にコーパス名が「青空サンプル」になります。好きな名前を付けてもかまいません。設定が済んだら,「インポート」ボタンを押して,インポートを開始します。
#ref(./import_target.png,center,wrap,80%,インポートの対象);
1〜2分程度でインポートは終了し,成功すれば,次のような画面が出てきます。これで,『ひまわり』へのインポートは完了し,検索できる状態になります。
#ref(./import_result.png,center,wrap,70%,インポート結果);
** 3.3 インポートした資料の確認 [#mb059f45]
それでは,用意した資料をすべて取り込めたかを確認するために,作品一覧を出してみます。[ツール]→「タイトル,著者」を実行して下さい。正しく取り込めていれば,次のようなリストが表示されるはずです。「タイトル」欄には,ファイル名に指定した作品名が,「path」欄にはコーパス名,フォルダ構造をまとめた情報が表示されます。
#ref(./import_article_list2.png,center,wrap,90%,作品一覧);
** 3.4 インポートした資料の利用 [#a49dd1a2]
『ひまわり』は設定ファイルを切り替えて,検索対象の資料やそれにあわせた機能の設定を行なっています。インポートした資料の設定ファイルとして,次の二つが自動的に作成されます。『ひまわり』がインストールされているフォルダを確認して下さい。
- config_(コーパス名).xml ... 全文検索機能のみを利用する場合の設定ファイル
- config_(コーパス名).db.xml ... 人手のアノテーション,形態素解析結果のアノテーションなど,データベースを利用する場合の設定ファイル
インポートした直後は,config_(コーパス名).xml が読み込まれた状態になります。別の設定ファイルを読み込むには,[ファイル]→「新規」を使って下さい。
#ref(./new.png,center,wrap,90%,設定ファルの読み込み);
インポートした資料の検索方法については,この後の章で詳しく説明しますが,一般的な事柄については,[[利用者マニュアル>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%CD%F8%CD%D1%BC%D4%A5%DE%A5%CB%A5%E5%A5%A2%A5%EB%2F1_5]]を参照して下さい。