全文検索システム『ひまわり』/青空文庫の文書を『ひまわり』で利用する方法
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){現在,本コンテンツは,保守されてい...
#br
*1.はじめに [#t3426fe9]
-[[青空文庫:http://www.aozora.gr.jp/]]で配布されている XH...
-Windows 環境での作業を想定しています。
--今回は,変換作業を自動化するツール「あおまめ」を使った...
--Windows 以外の OS をお使いの方,より詳しい変換方法を知...
*2.準備 [#l0922f11]
+[[『ひまわり』 ver.1.3 >全文検索システム『ひまわり』/ダ...
//--ver.1.2β02 以下のバージョンでは正常に動作しません。
//--『太陽コーパス』に同梱されている『ひまわり』は ver.1....
+検索対象の作品のダウンロード
--[[青空文庫:http://www.aozora.gr.jp/]]から検索対象の作品...
--ダウンロードする際,ファイル形式が&color(red){「XHTML ...
--ダウンロードの方法は,[[「青空文庫」の解説 (ダウンロー...
+「あおまめ」パッケージのダウンロードと解凍
--&ref(aomame.lzh,,「あおまめ」パッケージ);をダウンロード...
などの解凍ソフトを利用して,解凍してください。
--なお,本パッケージ中の「AOMAME.hta」は明海大学の小木曽 ...
--本ページでは,[[GPL:http://www.gnu.org/licenses/gpl.ja....
*3.作成手順 [#jb25daec]
**3.1 資料用フォルダの作成 [#r73f8c30]
「青空文庫」からダウンロードしたファイルを,一つのフォ...
**3.2 「あおまめ」パッケージの解凍 [#bf47519f]
「あおまめ」パッケージを解凍すると,「aomame」というフ...
-README.TXT ... 最初に読んでください。ライセンスなどの説...
-AOMAME.hta ... 「あおまめ」本体
-SimpleText フォルダ ... 『ひまわり』用データ
-config_simpleText.xml ... 『ひまわり』設定ファイル
**3.3 変換の実行 [#odb18650]
「AOMAME.hta」をダブルクリックして,「あおまめ」を起動...
-(a)「青空文庫」からダウンロードした作品を格納しているフ...
-(b) 変換結果のファイル(『ひまわり』検索用データ)を出力す...
&ref(aomame.png,,「あおまめ」);
上の図では,(a) はフォルダをデスクトップ上にある「aozor...
「作成」ボタンを押して,デスクトップに「corpus.xml」と...
**3.4 検索用データのインストール [#j6db66e5]
次に,『ひまわり』検索用データ(corpus.xml)を『ひまわり...
corpus.xml のインストールは,次の手順で行ってください。
+『ひまわり』がインストールしてあるフォルダに,「Corpora...
+同様に,『ひまわり』がインストールしてあるフォルダに,co...
+作成された corpus.xml を,1 の「SimpleText」フォルダに移...
**3.5 索引付け [#s2f0d711]
次に,作成した corpus.xml に対して,「索引付け」を行い...
索引付けの手順は,次のとおりです。
+『ひまわり』を起動してください。
+[ファイル]→[新規] で,設定ファイルの config_simpleText.x...
+[ツール]→[インデックス生成]を実行してください。
+「インデックス生成が終了しました。」と表示されれば,索引...
以上で,検索用データ作成は終了です。実際に検索してみて...
[[3.検索してみよう>全文検索システム『ひまわり』/利用者...
*4.変換処理の内容&aname(transform); [#b13efe1d]
&color(red){この節は,詳しい変換処理の内容を知りたい方...
青空文庫の XHTML ファイルから『ひまわり』で検索できる X...
3.3 節で実行する「AOMAME.hta」は,Windows 環境以外では...
+JRE など Java の実行環境を,お使いの PC にインストールし...
+「あおまめ」パッケージ中の aozora.xsl で,青空文庫の XHT...
--Proxy を使っていない場合
java org.apache.xalan.xslt.Process -in 変換対象ファイル...
--Proxy を使っている場合
java -Dhttp.proxyHost=Proxy のIPアドレス -Dhttp.proxyPor...
org.apache.xalan.xslt.Process
-in 変換対象ファイル名 -xsl aozora.xsl
+青空文庫の XHTML ファイルが複数ある場合は,それぞれのフ...
+corpus.xml 全体を aozora 要素としてください。具体的には...
+文字コードが UTF-16(Little Endian),改行コードが LF とな...
以上で,corpus.xml が作成されました。
終了行:
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){現在,本コンテンツは,保守されてい...
#br
*1.はじめに [#t3426fe9]
-[[青空文庫:http://www.aozora.gr.jp/]]で配布されている XH...
-Windows 環境での作業を想定しています。
--今回は,変換作業を自動化するツール「あおまめ」を使った...
--Windows 以外の OS をお使いの方,より詳しい変換方法を知...
*2.準備 [#l0922f11]
+[[『ひまわり』 ver.1.3 >全文検索システム『ひまわり』/ダ...
//--ver.1.2β02 以下のバージョンでは正常に動作しません。
//--『太陽コーパス』に同梱されている『ひまわり』は ver.1....
+検索対象の作品のダウンロード
--[[青空文庫:http://www.aozora.gr.jp/]]から検索対象の作品...
--ダウンロードする際,ファイル形式が&color(red){「XHTML ...
--ダウンロードの方法は,[[「青空文庫」の解説 (ダウンロー...
+「あおまめ」パッケージのダウンロードと解凍
--&ref(aomame.lzh,,「あおまめ」パッケージ);をダウンロード...
などの解凍ソフトを利用して,解凍してください。
--なお,本パッケージ中の「AOMAME.hta」は明海大学の小木曽 ...
--本ページでは,[[GPL:http://www.gnu.org/licenses/gpl.ja....
*3.作成手順 [#jb25daec]
**3.1 資料用フォルダの作成 [#r73f8c30]
「青空文庫」からダウンロードしたファイルを,一つのフォ...
**3.2 「あおまめ」パッケージの解凍 [#bf47519f]
「あおまめ」パッケージを解凍すると,「aomame」というフ...
-README.TXT ... 最初に読んでください。ライセンスなどの説...
-AOMAME.hta ... 「あおまめ」本体
-SimpleText フォルダ ... 『ひまわり』用データ
-config_simpleText.xml ... 『ひまわり』設定ファイル
**3.3 変換の実行 [#odb18650]
「AOMAME.hta」をダブルクリックして,「あおまめ」を起動...
-(a)「青空文庫」からダウンロードした作品を格納しているフ...
-(b) 変換結果のファイル(『ひまわり』検索用データ)を出力す...
&ref(aomame.png,,「あおまめ」);
上の図では,(a) はフォルダをデスクトップ上にある「aozor...
「作成」ボタンを押して,デスクトップに「corpus.xml」と...
**3.4 検索用データのインストール [#j6db66e5]
次に,『ひまわり』検索用データ(corpus.xml)を『ひまわり...
corpus.xml のインストールは,次の手順で行ってください。
+『ひまわり』がインストールしてあるフォルダに,「Corpora...
+同様に,『ひまわり』がインストールしてあるフォルダに,co...
+作成された corpus.xml を,1 の「SimpleText」フォルダに移...
**3.5 索引付け [#s2f0d711]
次に,作成した corpus.xml に対して,「索引付け」を行い...
索引付けの手順は,次のとおりです。
+『ひまわり』を起動してください。
+[ファイル]→[新規] で,設定ファイルの config_simpleText.x...
+[ツール]→[インデックス生成]を実行してください。
+「インデックス生成が終了しました。」と表示されれば,索引...
以上で,検索用データ作成は終了です。実際に検索してみて...
[[3.検索してみよう>全文検索システム『ひまわり』/利用者...
*4.変換処理の内容&aname(transform); [#b13efe1d]
&color(red){この節は,詳しい変換処理の内容を知りたい方...
青空文庫の XHTML ファイルから『ひまわり』で検索できる X...
3.3 節で実行する「AOMAME.hta」は,Windows 環境以外では...
+JRE など Java の実行環境を,お使いの PC にインストールし...
+「あおまめ」パッケージ中の aozora.xsl で,青空文庫の XHT...
--Proxy を使っていない場合
java org.apache.xalan.xslt.Process -in 変換対象ファイル...
--Proxy を使っている場合
java -Dhttp.proxyHost=Proxy のIPアドレス -Dhttp.proxyPor...
org.apache.xalan.xslt.Process
-in 変換対象ファイル名 -xsl aozora.xsl
+青空文庫の XHTML ファイルが複数ある場合は,それぞれのフ...
+corpus.xml 全体を aozora 要素としてください。具体的には...
+文字コードが UTF-16(Little Endian),改行コードが LF とな...
以上で,corpus.xml が作成されました。
ページ名: