『ひまわり』は,テキストファイル,HTML, XHTML,XML などさまざまな形式のテキストをインポートして,検索することができます。以下,順序をおって,一般的な操作手順を説明します。
まず,インポートする言語資料を一つのフォルダにまとめます。フォルダの中にフォルダを作って,細かく分類しても,かまいません。例えば,次のように,作家ごとにフォルダを作ったり,作家をグループにまとめたりします。後述のとおり,フォルダ構造やファイル名もコーパスに取り込まれ,検索にも利用できます。タグ付けされていない生テキストでは,上図のように,著者名や書名などの書誌情報を記述するのに利用するとよいでしょう。
言語資料を集める際は,次のことに留意してください。
『ひまわり』のメニューから[ファイル]⇒[インポート]を実行します。なお,Windows を利用している方は,エラーが出ていないか確かめるために,(himawari.exe ではなく) himawari_debug.exe を使うとよいでしょう。
次のウィンドウが現れたら,「参照」ボタンを押して,言語資料をまとめたフォルダを指定します。コーパス名は,指定したフォルダ名となります。例えば,5.1.1 の図の言語資料の場合,「テストコーパス」がコーパス名となります。
そのままでよければ,「インポート」ボタンを押してください。デフォルトでは,変換対象フォルダ中のファイルのうち,テキストファイル,および,HTMLファイルが処理対象になります。想定する形式は,『青空文庫』の形式です。
インポート処理が終わると,次のようなウィンドウがでれば,インポート完了です。なお,より詳しい設定を行う場合は,「詳細オプション」を選択してください。詳しくは,5.2 節以降でファイルの種類ごとに説明します。
まずは,処理途中でエラーが出ていないか確認します。どのようなファイルが取り込まれたかは,[ツール]→[一覧]→「タイトル,著者」で確認してください。問題がない場合は,実際に検索してみましょう。
インポート直後から,検索できる状態になります。検索方法と検索結果の見方は,『ひまわり』に同梱している『青空文庫』サンプルの使い方を参照してください(『青空文庫』サンプルは,『ひまわり』のテキストインポート機能を使って作られています)。
インポートした言語資料の設定ファイルとして,次の二つの設定ファイルが自動的に生成されます。なお,「コーパス名」の部分は,5.1.2 で付けたコーパス名が入ります。
インポート時に詳細な設定は,は,詳細オプション(5.1.2 節参照)で行います。詳細オプションをクリックすると,次のようなウィンドウが現れます。
生テキストファイルをインポートする際の詳細設定について説明します。ここで言う「生テキストファイル」とは,ファイル名の末尾が ".txt" のファイルで,HTML,XML でアノテーションされていないファイルのことです。
インポートするファイルの中に,生テキストファイルが含まれる場合は,変換オプションの「対象ファイル」で,「TXT」を選んで下さい。この項目が選択されていない場合は,指定したフォルダの中に生テキストファイルが含まれていても,インポートされません。
生テキストファイルのインポートに関連するオプションは,「文字正規化」「テキスト変換」オプション(5.2.1参照)です。インポート時は,「テキスト変換」の結果に「文字正規化」の処理が適用されます。
テキスト変換オプションで指定する変換規則は,aozora.htd がデフォルトで同梱されています。このファイルには,『青空文庫』(テキスト版)に含まれる独自形式のアノテーションに対応するための変換規則が記述されています。具体的には,次の三つのアノテーションです(「坊ちゃん」から引用)。
aozora.htd は,(『ひまわり』フォルダ)/resource/htd/ に配置されています。ファイルの仕様は,設定ファイルリファレンスマニュアルの import / text_transformation_definition 要素を参照してください。
HTML,XHTML ファイルをインポートする場合は,変換オプションの「対象ファイル」で,「XHTML」を選んで下さい。このオプションが選択されると,ファイル名の末尾が .html もしくは .htm のファイルがインポート対象となります。
インポート時のオプションには,「文字正規化」「XHTMLファイル用スタイルシート」があります。インポート時は,XHTML用スタイルシートによる変換処理のあと,「文字正規化」の処理が適用されます。
「XHTMLファイル用スタイルシート」は,デフォルトで次の二つのスタイルシートが用意されています。スタイルシートを指定しなければ,そのままインポートします。なお,デフォルトのスタイルシートは,(『ひまわり』フォルダ)/resource/xsl/xhtml/ に配置されています。
HTML ファイルの場合,そのままではスタイルシートは適用できませんが,「HTMLファイルの変換も試みる」オプションをチェックすると,XHTML ファイルへの変換を試みた後に,スタイルシートを適用します。ただし,常に XHTML ファイルに変換できるとは限りません。
HTML,XHTML ファイルをインポートする場合は,変換オプションの「対象ファイル」で,「XML」を選んで下さい。このオプションが選択されると,ファイル名の末尾が .xml のファイルがインポート対象となります。
インポート時のオプションとして,XHTML ファイル用のスタイルシートを指定できます。インポート時は,XML用スタイルシートによる変換処理のあと,「文字正規化」の処理が適用されます。
スタイルシートを指定しなければ,そのまま変換せずにインポートします。特定のスタイルシートは同梱されていませんが,(『ひまわり』フォルダ)/resource/xsl/xml フォルダにスタイルシートを入れると,メニューから利用できるようになります。
『ひまわり』用にパッケージングされた資料は,「インストール」機能を使って,簡単に『ひまわり』に取り込むことができます。もし,配布されているパッケージが「インスール」機能に対応しているならば,次の手順でインストールを実行して下さい。