[[全文検索システム『ひまわり』]] &size(20){&color(red){本ページは,現在構築中です。};}; * 1.概要 [#x12e7522] このページでは,タグ付けされていないテキストファイル対象に,その構造を考慮しつつ,『ひまわり』にインポートする方法を説明します。 ここでは,ルビと注記が付与されたテキストである,青空文庫のテキストを例にして説明します。例えば, 次の例は,青空文庫に収録されている芥川龍之介の「蜘蛛の糸」の一部です。青空文庫のテキスト版では,次のように,ルビや注記が一定の構造を持って記述されています。文字列検索を行う場合,そのまま検索すると,ルビや注記が検索の妨げになってしまいます。 独自の例として,次のような形態素解析結果(「これはテストでした」をMeCabで解析した結果)を扱います。 『ひまわり』は,インポート時にこのような構造を『ひまわり』で扱える形式に変換します。ただし,変換の規則は自分で作る必要があります。 これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ は 助詞,係助詞,*,*,*,*,は,ハ,ワ テスト 名詞,サ変接続,*,*,*,*,テスト,テスト,テスト でし 助動詞,*,*,*,特殊・デス,連用形,です,デシ,デシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS //『ひまわり』にインポートし,通常の全文検索のほか,品詞などの形態素解析結果を利用した検索することを目標とします。 このようなデータは,注釈として形態素解析結果をテキストに <m pos="名詞">これ</m> <m pos="助詞">は</m> <m pos="名詞">テスト</m> <m pos="助動詞">でし</m> <m pos="助動詞">た/m> 『ひまわり』にインポートし,通常の全文検索のほか,品詞などの形態素解析結果を利用した検索することを目標とします。 なお,本ページで示す方法は,テキスト構造を考慮したインポートの仕組みを説明するためのものです。より簡便に形態素解析結果を取り込みたい場合は,#などを参照して下さい。 * 2.準備 [#jc80eafd] 次のソフトウェアをPCにインストールして下さい。 - 『ひまわり』ver.1.5 - テキストエディタ(例:秀丸,Terapad など) * 3 『ひまわり』へのインポート [#c7d20bc1] ** 3.1 おおまかな流れ [#f7b9cbe2] インポートの流れは,次に示すとおり,基本的に#と同じです。ただし, #では,『ひまわり』は,正規表現置換を用いてテキストの変換規則を定義し,適用する変換規則が定義できます。 ** 3.2 インポート結果のテキスト構造 [#i5a7488f] 『ひまわり』は,XML で構造化されたテキストデータを検索対象とします。そのため,インポートの具体的な手順を説明する前に,インポートの結果の XML データについて最初に説明しておきます。 <m pos="名詞">これ</m> <m pos="助詞">は</m> <m pos="名詞">テスト</m> <m pos="助動詞">でし</m> <m pos="助動詞">た/m>