全文検索システム『ひまわり』/利用者マニュアル/1_5/５．言語資料をインポートするの履歴の現在との差分(No.15)

追加された行はこの色です。
削除された行はこの色です。
[[全文検索システム『ひまわり』/利用者マニュアル/1_5]]
#navi(../)

//&color(red){&size(20){本ページは作成中です。};};


*5. 言語資料を『ひまわり』で検索できるようにする [#q7e09870]

** 5.1 一般的な手順 [#ldb6e87b]
　『ひまわり』は，テキストファイル，HTML， XHTML，XML などさまざまな形式のテキストをインポートして，検索することができます。以下，順序をおって，一般的な操作手順を説明します。

*** 5.1.1 言語資料の準備 [#g2927b9f]

　まず，インポートする言語資料を一つのフォルダにまとめます。フォルダの中にフォルダを作って，細かく分類しても，かまいません。ここでは，次のような構造でファイルを配置したものとします。
　まず，インポートする言語資料を一つのフォルダにまとめます。フォルダの中にフォルダを作って，細かく分類しても，かまいません。例えば，次のように，作家ごとにフォルダを作ったり，作家をグループにまとめたりします。後述のとおり，フォルダ構造やファイル名もコーパスに取り込まれ，検索にも利用できます。タグ付けされていない生テキストでは，上図のように，著者名や書名などの書誌情報を記述するのに利用するとよいでしょう。

#ref(./dir_structure.png,center,wrap)

　言語資料を集める際は，次のことに留意してください。

- ファイル名の末尾は，ファイル形式に応じて，次のようにつけてください。複数のファイル形式が混在していてもかまいません。
-- .txt ... タグ付けされてない生のテキストファイル
-- .html ... または .htm: HTML，XHTML ファイル
-- .xml ... XML ファイル    
- 言語資料の文字コードは，自動判別します。
- 後述のとおり，フォルダ構造やファイル名もコーパスに取り込まれ，検索にも利用できます。タグ付けされていない生テキストでは，上図のように，書誌情報などを記述するのに利用するとよいでしょう。


*** 5.1.2 インポートの実行 [#v9f285bd]
　『ひまわり』のメニューから[ファイル]⇒[インポート]を実行します。
　『ひまわり』のメニューから[ファイル]⇒[インポート]を実行します。なお，Windows を利用している方は，エラーが出ていないか確かめるために，(himawari.exe ではなく) himawari_debug.exe を使うとよいでしょう。

#ref(./import_menu.png,center,wrap)

　次のウィンドウが現れたら，「参照」ボタンを押して，言語資料をまとめたフォルダを指定します。コーパス名は，指定したフォルダ名となります。例えば，5.1.1 の図の言語資料の場合，「テストコーパス」がコーパス名となります。

　そのままでよければ，「インポート」ボタンを押してください。インポート処理が終わると，次のようなウィンドウがでれば，インポート完了です。なお，より詳しい設定を行う場合は，「詳細オプション」を選択してください。詳しくは，5.2 節以降でファイルの種類ごとに説明します。

#ref(./import_default.png,center,wrap)

　そのままでよければ，「インポート」ボタンを押してください。デフォルトでは，変換対象フォルダ中のファイルのうち，テキストファイル，および，HTMLファイルが処理対象になります。想定する形式は，『青空文庫』の形式です。

　インポート処理が終わると，次のようなウィンドウがでれば，インポート完了です。なお，より詳しい設定を行う場合は，「詳細オプション」を選択してください。詳しくは，5.2 節以降でファイルの種類ごとに説明します。


*** 5.1.3 言語資料の利用 [#n1f92a00]
　インポート直後から，検索できる状態になります。今回インポートした言語資料の設定ファイルは，config_コーパス名.xml です。『ひまわり』がインストールされているフォルダに自動的に作成されます。例えば，5.1.2 でコーパス名を「aozora」とすれば，設定ファイルは，config_aozora.xml となります。
　まずは，処理途中でエラーが出ていないか確認します。どのようなファイルが取り込まれたかは，[ツール]→[一覧]→「タイトル，著者」で確認してください。問題がない場合は，実際に検索してみましょう。

　インポート直後から，検索できる状態になります。検索方法と検索結果の見方は，『ひまわり』に同梱している[[『青空文庫』サンプル>全文検索システム『ひまわり』/『青空文庫』サンプル]]の使い方を参照してください（『青空文庫』サンプルは，『ひまわり』のテキストインポート機能を使って作られています）。

** 5.2 生テキストファイルの場合 [#v9e1b6fa]
　インポートした言語資料の設定ファイルとして，次の二つの設定ファイルが自動的に生成されます。なお，「コーパス名」の部分は，5.1.2 で付けたコーパス名が入ります。

:config_コーパス名.xml|この設定が，インポート直後に読み込まれます。[[人手アノテーション機能>全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションする#p0e74d35]]，[[自動アノテーション機能>全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションする#q6041ade]]は使わない設定になっています。『ひまわり』ver.1.3でも利用できます。
:config_コーパス名.db.xml|config_コーパス名.xmlの設定に加えて，[[人手アノテーション機能>全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションする#p0e74d35]]，[[自動アノテーション機能>全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションする#q6041ade]]用の設定が含まれています。これらの機能を使う場合は，この設定ファイルを使ってください。


** 5.2 インポートの詳細 [#jb30557d]
*** 5.2.1 詳細オプション [#u80fa283]
　インポート時に詳細な設定は，は，詳細オプション(5.1.2 節参照)で行います。詳細オプションをクリックすると，次のようなウィンドウが現れます。

#ref(./import_option.png,center,wrap)

:変換対象ファイル|変換対象のファイルの種類を設定します。
:文字正規化|変換時の文字正規化処理の種類を設定します。
-- ''なし:'' 正規化処理は基本的に行いません。ただし，変換後のファイルはXMLなので，XMLのマークアップで使用される文字(<>&の3文字)は強制的にいわゆる全角文字に変換されます。
-- ''ユーザ定義:'' ユーザが定義した変換規則に基づいて，文字を正規化します。変換規則は，『ひまわり』の設定ファイルの [[import/char_convertion_table 要素>全文検索システム『ひまわり』/設定ファイルリファレンスマニュアル#bcbacdb8]]で定義します。
-- ''NFKC (Unicode):'' Unicode で定義されている正規化方式 NFKC(Normalization Form Compatibility Composition)に基づいて，正規化する。詳細は，[[Unicode Standard Annex #15>http://unicode.org/reports/tr15/]]，[[Wikipedia>http://ja.wikipedia.org/wiki/Unicode%E6%AD%A3%E8%A6%8F%E5%8C%96]]などを参照のこと。
:テキスト変換|テキストファイル中の文字列を変換するための規則を指定します。
:XHTMLファイル用スタイルシート|XHTMLファイルを変換するためのスタイルシートを指定します。また，オプションにより，対象ファイルが HTML ファイルだった場合，XHTML への変換の可否を指定します。
:XMLファイル用スタイルシート|XMLファイルを変換するためのスタイルシートを指定します。


*** 5.2.1 生テキストファイルのインポート [#v9e1b6fa]
　生テキストファイルをインポートする際の詳細設定について説明します。ここで言う「生テキストファイル」とは，ファイル名の末尾が ".txt" のファイルで，HTML，XML でアノテーションされていないファイルのことです。

　インポートするファイルの中に，生テキストファイルが含まれる場合は，変換オプションの「対象ファイル」で，「テキストファイル」を選んで下さい。この項目が選択されていない場合は，指定したフォルダの中に生テキストファイルが含まれていても，インポートされません。
　インポートするファイルの中に，生テキストファイルが含まれる場合は，変換オプションの「対象ファイル」で，「TXT」を選んで下さい。この項目が選択されていない場合は，指定したフォルダの中に生テキストファイルが含まれていても，インポートされません。

　『ひまわり』は独自の形式のアノテーションに対応します。例えば，「青空文庫」の「テキスト形式」ファイルでは，ルビを次のような形式でアノテーションしています（[[「坊ちゃん」>http://www.aozora.gr.jp/cards/000148/files/752_ruby_2438.zip]]から引用）。
　生テキストファイルのインポートに関連するオプションは，「文字正規化」「テキスト変換」オプション(5.2.1参照)です。インポート時は，「テキスト変換」の結果に「文字正規化」の処理が適用されます。

- 《》：ルビ &br; （例）坊《ぼ》っちゃん
- ｜：ルビの付く文字列の始まりを特定する記号 &br;（例）夕方｜折戸《おりど》の
- ［＃］：入力者注　主に外字の説明や、傍点の位置の指定 &br; （例）おくれんかな［＃「おくれんかな」に傍点］
　テキスト変換オプションで指定する変換規則は，aozora.htd がデフォルトで同梱されています。このファイルには，『青空文庫』（テキスト版）に含まれる独自形式のアノテーションに対応するための変換規則が記述されています。具体的には，次の三つのアノテーションです（[[「坊ちゃん」>http://www.aozora.gr.jp/cards/000148/files/752_ruby_2438.zip]]から引用）。

　設定は，インポート時の詳細オプションで行います。変換オプションの「テキストファイル変換」で，「青空文庫形式」にチェックを入れると，青空文庫の独自アノテーションに対応したインポートを行います。別の形式に対応するには，チェックを外し，「改行の扱い」などの個別の項目を選択してください。
:《》：ルビ|（例）坊《ぼ》っちゃん
:｜：ルビの付く文字列の始まりを特定する記号|（例）夕方｜折戸《おりど》の ... ルビの範囲が「折戸」までであることを示します
:［＃］：入力者注　主に外字の説明や，傍点の位置の指定|（例）おくれんかな［＃「おくれんかな」に傍点］

#ref(./import_option.png,center,wrap)
　aozora.htd は，（『ひまわり』フォルダ）/resource/htd/ に配置されています。ファイルの仕様は，設定ファイルリファレンスマニュアルの [[import / text_transformation_definition 要素>全文検索システム『ひまわり』/設定ファイルリファレンスマニュアル#kd375fdc]]を参照してください。


** 5.3 HTML，XHTML ファイルの場合 [#gaa62316]
*** 5.2.2 HTML，XHTML ファイルのインポート [#gaa62316]
　HTML，XHTML ファイルをインポートする場合は，変換オプションの「対象ファイル」で，「XHTML」を選んで下さい。このオプションが選択されると，ファイル名の末尾が .html もしくは .htm のファイルがインポート対象となります。

　インポート時のオプションとして，XHTML ファイル用のスタイルシートを指定できます。デフォルトでは，次の二つのスタイルシートが用意されています。スタイルシートを指定しなければ，そのまま変換せずにインポートします。
　インポート時のオプションには，「文字正規化」「XHTMLファイル用スタイルシート」があります。インポート時は，XHTML用スタイルシートによる変換処理のあと，「文字正規化」の処理が適用されます。

- xhtml2xml.xsl: XHTML 汎用スタイルシート
- xhtml2xml_aozora.xsl: 青空文庫専用スタイルシート
　「XHTMLファイル用スタイルシート」は，デフォルトで次の二つのスタイルシートが用意されています。スタイルシートを指定しなければ，そのままインポートします。なお，デフォルトのスタイルシートは，（『ひまわり』フォルダ）/resource/xsl/xhtml/ に配置されています。

:xhtml2xml.xsl|XHTML 汎用のスタイルシートです。
:xhtml2xml_aozora.xsl|青空文庫専用スタイルシートです。『青空文庫』（XHTML版）のアノテーションをできるだけ取り込みます。ルビ，注記などのほか，タイトルや著者の情報も取り込みます。

　HTML ファイルの場合，そのままではスタイルシートは適用できませんが，「HTMLファイルの変換も試みる」オプションをチェックすると，XHTML ファイルへの変換を試みた後に，スタイルシートを適用します。ただし，常に XHTML ファイルに変換できるとは限りません。

** 5.4 XML ファイルの場合 [#e9a0146e]
*** 5.2.3 XML ファイルのインポート [#e9a0146e]
　HTML，XHTML ファイルをインポートする場合は，変換オプションの「対象ファイル」で，「XML」を選んで下さい。このオプションが選択されると，ファイル名の末尾が .xml のファイルがインポート対象となります。

　インポート時のオプションとして，XHTML ファイル用のスタイルシートを指定できます。スタイルシートを指定しなければ，そのまま変換せずにインポートします。特定のスタイルシートは同梱されていませんが，『ひまわり』がインストールされているフォルダの resource/xsl/xml フォルダにスタイルシートを入れると，それを利用できるようになります。
　インポート時のオプションとして，XHTML ファイル用のスタイルシートを指定できます。インポート時は，XML用スタイルシートによる変換処理のあと，「文字正規化」の処理が適用されます。

　スタイルシートを指定しなければ，そのまま変換せずにインポートします。特定のスタイルシートは同梱されていませんが，（『ひまわり』フォルダ）/resource/xsl/xml フォルダにスタイルシートを入れると，メニューから利用できるようになります。


** 5.3 『ひまわり』用資料のインストール [#z13d3da4]
*** 5.3.1 『ひまわり』用パッケージの場合 [#c9f432c8]
　『ひまわり』用にパッケージングされた資料は，「インストール」機能を使って，簡単に『ひまわり』に取り込むことができます。もし，配布されているパッケージが「インスール」機能に対応しているならば，次の手順でインストールを実行して下さい。

+ パッケージファイルを解凍して下さい。
+ [ファイル]→[インストール]を実行し，解凍結果のフォルダを指定します。&color(red){念のため，指定するフォルダ直下に Corpora フォルダがあるかどうか，確認して下さい。};
+ 成功すると，コピーしたファイルが表示されて，パッケージのインストールは完了します。

#navi(../)
全文検索システム『ひまわり』/利用者マニュアル/1_5/５．言語資料をインポートする の履歴の現在との差分(No.15)

全文検索システム『ひまわり』/利用者マニュアル/1_5/５．言語資料をインポートするの履歴の現在との差分(No.15)