国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
本ページは,現在構築中です。
このページでは,タグ付けされていないテキストファイル対象に,その構造を考慮しつつ,『ひまわり』にインポートする方法を説明します。
ここでは,次のような形態素解析結果(「これはテストでした」をMeCabで解析した結果)を例とします。このようなデータをインポートすると,通常の全文検索のほか,品詞などの形態素解析結果を利用した検索ができるようになります。
これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ は 助詞,係助詞,*,*,*,*,は,ハ,ワ テスト 名詞,サ変接続,*,*,*,*,テスト,テスト,テスト でし 助動詞,*,*,*,特殊・デス,連用形,です,デシ,デシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS
『ひまわり』は,変換規則をインポート時に指定した変換規則により,『ひまわり』形式のデータに変換します。
なお,本ページで示す方法は,テキスト構造を考慮したインポートの仕組みを説明するためのものです。より簡便に形態素解析結果を取り込みたい場合は,#などを参照して下さい。
次のソフトウェアをPCにインストールして下さい。
『ひまわり』は,XML で構造化されたテキストデータを検索対象とします。そのため,インポートの具体的な手順を説明する前に,インポートの結果の XML データについて最初に説明しておきます。
<m pos="名詞">これ</m> <m pos="助詞">は</m> <m pos="名詞">テスト</m> <m pos="助動詞">でし</m> <m pos="助動詞">た/m>