[PukiWiki]

全文検索システム『ひまわり』/テキストの構造を考慮した検索用データの作成方法

Top/全文検索システム『ひまわり』/テキストの構造を考慮した検索用データの作成方法

全文検索システム『ひまわり』

本ページは,現在構築中です。

1.概要†

 このページでは,タグ付けされていないテキストファイル対象に,その構造を考慮しつつ,『ひまわり』にインポートする方法を説明します。

 次の例は,青空文庫に収録されている芥川龍之介の「蜘蛛の糸」の一部です。青空文庫のテキスト版では,次のように,ルビや注記が一定の構造を持って記述されています。文字列検索を行う場合,そのまま検索すると,ルビや注記が検索の妨げになってしまいます。

 『ひまわり』は,インポート時にこのような構造を『ひまわり』で扱える形式に変換します。ただし,変換の規則は自分で作る必要があります。

 なお,本ページで示す方法は,テキスト構造を考慮したインポートの仕組みを説明するためのものです。より簡便に形態素解析結果を取り込みたい場合は,#などを参照して下さい。

↑

2.準備†

 次のソフトウェアをPCにインストールして下さい。

  • 『ひまわり』ver.1.5
  • テキストエディタ(例:秀丸,Terapad など)
↑

3 『ひまわり』へのインポート†

↑

3.1 おおまかな流れ†

 インポートの流れは,次に示すとおり,基本的に#と同じです。ただし,

#では,『ひまわり』は,正規表現置換を用いてテキストの変換規則を定義し,適用する変換規則が定義できます。

↑

3.2 インポート結果のテキスト構造†

 『ひまわり』は,XML で構造化されたテキストデータを検索対象とします。そのため,インポートの具体的な手順を説明する前に,インポートの結果の XML データについて最初に説明しておきます。

<m pos="名詞">これ</m>
<m pos="助詞">は</m>
<m pos="名詞">テスト</m>
<m pos="助動詞">でし</m>
<m pos="助動詞">た/m>

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS

total:1534
today:3
yesterday:1

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-03-23 (水) 00:00:00