全文検索システム『ひまわり』/利用者マニュアル/1_5/５．言語資料をインポートするの履歴(No.5)

5. 言語資料を『ひまわり』で検索できるようにする†

　『ひまわり』は，テキストファイル，HTML， XHTML，XML などさまざまな形式のテキストをインポートして，検索することができます。以下，順序をおって，一般的な操作手順を説明します。

　まず，インポートする言語資料を一つのフォルダにまとめます。フォルダの中にフォルダを作って，細かく分類しても，かまいません。ここでは，次のような構造でファイルを配置したものとします。

　『ひまわり』のメニューから[ファイル]⇒[インポート]を実行します。次のウィンドウが現れたら，「参照」ボタンを押して，言語資料をまとめたフォルダを指定します。すると，自動的に指定したフォルダ名がコーパス名となります。

　そのままでよければ，「インポート」ボタンを押してください。インポート処理が終わると，次のようなウィンドウがでれば，インポート完了です。なお，より詳しい設定を行う場合は，「詳細オプション」を選択してください。詳しくは，5.2 節以降でファイルの種類ごとに説明します。

　インポート直後から，検索できる状態になります。今回インポートした言語資料の設定ファイルは，config_コーパス名.xml です。

　生のテキストファイルをインポートする際の詳細設定について説明します。「生のテキストファイル」とは，HTML，XML などでタグ付けされていないファイルのことです。

　インポートするファイルの中に，テキストファイルが含まれる場合は，変換オプションの「対象ファイル」で，「テキストファイル」を選んで下さい。この項目が選択されていない場合は，指定したフォルダの中にテキストファイルが含まれていても，インポートされません。

　HTMLなどの標準規格に則らない，独自の形式でアノテーションする場合があります。例えば，「青空文庫」の「テキスト形式」ファイルでは，ルビを次のような形式でアノテーションしています。

　『ひまわり』は，このような独自形式のアノテーションを取り込む機能があります。「青空文庫」テキスト形式のアノテーションを解釈して，その情報を取り込みます。

には，アノテーションされている情報がないので，基本的にそのままは，ファイル名やフォルダ名ディレクトリ一定の表記パターンの