『ひまわり』は,テキストファイル,HTML, XHTML,XML などさまざまな形式のテキストをインポートして,検索することができます。以下,順序をおって,一般的な操作手順を説明します。
まず,インポートする言語資料を一つのフォルダにまとめます。フォルダの中にフォルダを作って,細かく分類しても,かまいません。ここでは,次のような構造でファイルを配置したものとします。
『ひまわり』のメニューから[ファイル]⇒[インポート]を実行します。次のウィンドウが現れたら,「参照」ボタンを押して,言語資料をまとめたフォルダを指定します。すると,自動的に指定したフォルダ名がコーパス名となります。
そのままでよければ,「インポート」ボタンを押してください。インポート処理が終わると,次のようなウィンドウがでれば,インポート完了です。なお,より詳しい設定を行う場合は,「詳細オプション」を選択してください。詳しくは,5.2 節以降でファイルの種類ごとに説明します。
インポート直後から,検索できる状態になります。今回インポートした言語資料の設定ファイルは,config_コーパス名.xml です。
生のテキストファイルをインポートする際の詳細設定について説明します。「生のテキストファイル」とは,HTML,XML などでタグ付けされていないファイルのことです。
インポートするファイルの中に,テキストファイルが含まれる場合は,変換オプションの「対象ファイル」で,「テキストファイル」を選んで下さい。この項目が選択されていない場合は,指定したフォルダの中にテキストファイルが含まれていても,インポートされません。
HTMLなどの標準規格に則らない,独自の形式でアノテーションする場合があります。例えば,「青空文庫」の「テキスト形式」ファイルでは,ルビを次のような形式でアノテーションしています。
『ひまわり』は,このような独自形式のアノテーションを取り込む機能があります。 「青空文庫」テキスト形式のアノテーションを解釈して,その情報を取り込みます。
には,アノテーションされている情報がないので,基本的にそのままは,ファイル名やフォルダ名ディレクトリ一定の表記パターンの