全文検索システム『ひまわり』/設定ファイル作成の手引き２の履歴(No.52)

全文検索システム『ひまわり』

本ページは現在作成中です

１．はじめに
２．『ひまわり』の検索機能
３．XML要素内容に対する全文検索
- 3.1 通常の全文検索
- 3.2 正規表現による全文検索
４．検索結果の要素内容をマークアップしているタグの属性の抽出
- 4.1 抽出する属性の指定
- 4.2 属性を抽出する要素の設定
補足説明

１．はじめに†

　このページでは，設定ファイルで記述できる項目のうち，検索機能関連の項目について解説します。ただし，この後の説明は，『ひまわり』や XML について，次のことを前提として書いています。

本手引きは，「簡単な検索用データの作成方法」の内容を発展させる形で書いています。まずは，「簡単な検索用データの作成方法」をお読みください。
『ひまわり』では，検索対象の資料が XML で記述されていることが前提となっており， XML に関するある程度の知識を必要とします。この後の説明を読んで，難しいと感じたかたは，次の資料をまずご参照ください。
- 本ページ中に頻繁に現れる「要素」，「タグ」，「属性」などの XML の用語を補足説明で説明しています。こちらもあわせてご覧ください。
- XML 自体についての解説は，各種の入門書・Web ページをご覧ください。ここでは，「XML入門」を参考用の Web ページとして挙げておきます。

↑

２．『ひまわり』の検索機能†

　このあと説明するのは，次の＃つの検索方法です。

XML要素内容に対する全文検索
検索結果の要素内容をマークアップしているタグの属性の抽出
タグの属性の検索

↑

３．XML要素内容に対する全文検索†

↑

3.1 通常の全文検索†

　まず，簡単な検索用データの作成方法で扱ったXMLデータと設定ファイルとの関係を見てみます。

<?xml version="1.0" encoding="utf-16" ?>
<corpus>
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
　ある日の事でございます。御釈迦様は極楽の蓮池のふちを、独りでぶらぶら御歩き
になっていらっしゃいました。
　　　　　　　　　　：（中略）
</simpledoc>
</corpus>

　全文検索対象の要素は，設定ファイルの index_cix 要素で指定します。config_simpledoc.xml を見てみましょう。config_simpledoc.xml をサクラエディタなどのテキストエディタで開いて，index_cix 要素を探してください。li 要素の name 属性で，全文検索対象の "simpledoc" 要素が指定されていることがわかります。

 <index_cix>
   <li name="simpledoc" label="本文" middle_name="sd" type="normal" field_name="キー" />
 </index_cix>

　li 要素の内容は，次のとおりです。

name 属性：: 全文検索対象の要素名です。上の例の場合，li 要素の name 属性で，simpledoc 要素が設定されています。
label 属性：: 検索対象の選択メニューに表示される文字列です。
middle_name 属性：: 索引ファイル名の一部となります。他の li 要素の middle_name 属性値と重ならない値を半角文字で設定してください。どのような文字列でも構いません。
type 属性：: 「normal」としてください。
field_name 属性：: 検索結果を表示する列名を指定します。この列名は，field_setting 要素で指定した列名と対応しています。上の例では，「キー」の列に全文検索の結果が入るようになっています。

　上記の例では，全部検索対象をひとつだけ指定しましたが，複数指定することもできます。例えば，本文と書誌情報がある場合を考えましょう。body 要素が本文，note 要素が書誌情報とします。

<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
<body>
　ある日の事でございます。御釈迦様は極楽の蓮池のふちを、独りでぶらぶら御歩きになっていらっしゃいました。池の中に咲いている蓮の花は、みんな玉のようにまっ白で、そのまん中にある金色の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れて居ります。極楽は丁度朝なのでございましょう。
</body>
<note>
底本：「芥川龍之介全集2」ちくま文庫、筑摩書房
　　　1986（昭和61）年10月28日第1刷発行
　　　1996（平成8）年7月15日第11刷発行
親本：筑摩全集類聚版芥川龍之介全集
　　　1971（昭和46）年3月～11月
</note>
</simpledoc>

(青空文庫の芥川龍之介「蜘蛛の糸」の一部を取り出し編集)

　このようなデータに対して，本文だけ，書誌情報だけ，両方を全文検索するには，次のように，index_cix 要素内の li 要素を複数指定します。検索対象の選択は，『ひまわり』の選択メニューから行うことができます。

 <index_cix>
   <li name="body" label="本文" middle_name="body" type="normal" field_name="キー" />
   <li name="note" label="書誌情報" middle_name="note" type="normal" field_name="キー" />
   <li name="simpledoc" label="全体" middle_name="sd" type="normal" field_name="キー" />
 </index_cix>

↑

3.2 正規表現による全文検索†

　検索速度は落ちますが，正規表現を使った全文検索を行うことも可能です。その場合，次のように，type属性を"null"としてください。通常の全文検索用の設定と区別するために，label 属性と middle_name 属性の値は，別の値をつけてください。

 <index_cix>
   <li name="simpledoc" label="本文" middle_name="sd" type="normal" field_name="キー" />
   <li name="simpledoc" label="本文(正規表現)" middle_name="sd2" type="null" field_name="キー" />
 </index_cix>

↑

４．検索結果の要素内容をマークアップしているタグの属性の抽出†

↑

4.1 抽出する属性の指定†

　『ひまわり』は，検索した要素内容をマークアップしているタグの属性を，検索結果として抽出することができます。例えば，「簡単な検索用データの作成方法」では，検索された文字列の「著者」と「タイトル」を抽出しています。

　まず，config_simpledoc.xml の中の field_setting 要素を見てください。次の部分です。

<field_setting>
  <li name="no" type="index" width="30" align="RIGHT" />
  <li name="前文脈" type="preceding_context" element="_sys" attribute="_preceding_context" width="180" align="RIGHT" sort_direction="R" />
  <li name="キー" type="key" element="_sys" attribute="_key" width="80" sort_order="1" />
  <li name="後文脈" type="following_context" element="_sys" attribute="_following_context" width="160" sort_order="2" />
  <li name="著者" type="argument" element="simpledoc" attribute="著者" width="80" />
  <li name="タイトル" type="argument" element="simpledoc" attribute="タイトル" width="80" />
</field_setting>

　li 要素の name 属性に注目してください。これを見てわかるとおり，field_setting 要素中の li 要素は，検索結果の各列(フィールド)の情報を表しています。ちなみに，li 要素の順序が，検索結果の列の表示順序を決定します。

　li 要素の属性のうち，本題に関係する四つの属性を見ていきましょう。

name 属性：: 検索結果の列名です。この値を変更すれば，列の名前が変わります。
type 属性：: ここでは，「argument」としてください。
element, attribute 属性：: それぞれの属性値で，抽出対象の要素とその属性名を指定します。例えば，上記の最後の行の li 要素は，element の値が「simpledoc」，attribute が「タイトル」となっています。これは，「simpledoc」要素の「タイトル」属性を検索結果として表示することを意味します。
width 属性：: 検索結果の列の幅(単位はpixel)です。

　まず，抽出する属性の変更ですが，上で述べたように，li 要素の element 属性と attribute 属性を変更することによって行います。

　次に，抽出する属性を追加してみます。例として，「簡単な検索用データの作成方法」の simpledoc 要素に「作成日」属性をつけます。具体的な追加例を次に示します。

<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介" 作成日="2005-01-16">

　資料に対して，「作成日」属性を追加したら，config_simpledoc.xml の field_setting 要素には，次の li 要素を追加します。

<li name="作成日" type="argument" element="simpledoc" attribute="作成日" width="80" />

　attribute 属性が「作成日」となっているのに注意してください。name 属性は，検索結果の列名になります。field_setting 要素中のどこに追加してもかまいませんが，すでに述べたように，検索結果の列の表示順に影響します。

↑

4.2 属性を抽出する要素の設定†

　説明の順序が逆になりますが，属性を抽出する要素に対しては，設定が必要です。4.1節で使っている simpledoc 要素の場合，config_simpledoc.xml の index_eix 要素で次のように設定されています。

<index_eix>
  <li name="simpledoc" middle_name="sd" is_empty="false" top="false" isBrowsed="true" />
</index_eix>

　それぞれの属性の意味は，次のとおりです。

name 属性：: 属性抽出対象の要素名です。上の例の場合，li 要素の name 属性で，simpledoc 要素が設定されています。
middle_name 属性：: 他の li 要素の middle_name 属性値と重ならない値を半角文字で設定してください。どのような文字列でも構いません。索引ファイル名の一部となります。
isBrowsed 属性：: 「true」の場合は，閲覧対象の要素([ツール]→[閲覧]の対象)であることを示します。閲覧対象の要素でない場合は，指定する必要はありません。なお，現在のところ，index_eix 要素中の一つの li 要素でしか指定できません。
is_empty 属性：: 空要素タグの場合，true としてください。
top 属性：: ここでは，詳しく説明しません。false としてください。

　もう一つの例として，複数の要素の属性を抽出する方法を説明します。

　具体的な状況として，複数の章からなる文書を考えてみます。例えば，次のような構造を持った文書です。新たに設定した要素は，「章」要素です。

<simpledoc タイトル="全文検索システムについて" 筆者="国語太郎">
  <章 タイトル="第１章 はじめに">
    この文章では，... について述べます。 
                 ：
                 ：
  </章>
  <章 タイトル="第２章 発表の手順">
    本発表の手順は，次のとおりです。
                 ：
                 ：
  </章>
</simpledoc>

　ここで，第２章に含まれる「本発表」を検索したとします。config_simpledoc.xml の設定だと，simpledoc 要素の属性(「タイトル」属性と「著者」属性)しか，検索結果として抽出できません。どの章に含まれるかを知るには，「章」要素の「タイトル」属性を抽出する必要があります。

　「章」要素を属性抽出対象の要素とするには，次の li 要素を index_eix 要素に追加してください。

<index_eix>
  <li name="simpledoc" middle_name="sd" is_empty="false" top="false" isBrowsed="true" />
  <li name="章" middle_name="section" is_empty="false" top="false" />
</index_eix>

　li 要素の追加が終わったら，[ツール]→[インデックス生成]で索引を生成してください。

　以上で，index_eix 要素のほうの準備は，完了です。後は，抽出する属性を表示するための設定を field_setting 要素に追加してください（4.1節参照）。追加する li 要素は，次のようになります。

 <li name="章のタイトル" type="argument" element="章" attribute="タイトル" width="80" />

↑

補足説明 †

　ここでは，XML に関する用語のうち，「要素」，「タグ」，「属性」など，上記説明中で頻繁に使用されている用語について補足説明を行います。

「開始タグ」から「終了タグ」までの部分を「要素」といいます。下の例は，simpledoc 要素の例です。
「開始タグ」と「終了タグ」は必ずペアになっています。

ただし，「開始タグ」と「終了タグ」で囲われている部分（「要素内容」といいます）がない，「空要素」という「要素」もあります。例えば，上記の説明中で頻繁に出てくる li 要素です。空要素は，<... /> の形式で記述します。
```
<li name="simpledoc" path="Corpora/Simpledoc/corpus" />
```
上の simpledoc 要素のように，「要素」に「属性」を付与することができます。「属性」は「開始タグ」に記入します。上の例では，simpledoc 要素の「開始タグ」に「タイトル」属性と「著者」属性を付与しています。

全文検索システム『ひまわり』/設定ファイル作成の手引き２ の履歴(No.52)