全文検索システム『ひまわり』/設定ファイル作成の手引き
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
#contents
*はじめに [#h82273b3]
このページでは,設定ファイルで記述できる項目のうち,よ...
-本手引きは,「[[簡単な検索用データの作成方法>全文検索シ...
-『ひまわり』では,検索対象の資料が XML で記述されている...
--本ページ中に頻繁に現れる「要素」,「タグ」,「属性」な...
--XML 自体についての解説は,各種の入門書・Web ページをご...
*抽出する属性を追加,変更するには&aname(sec1); [#dc289b50]
『ひまわり』は,検索結果の文字列をマークアップしている...
まず,抽出する属性と『ひまわり』の設定ファイルとの関係...
<field_setting>
<li name="no" type="index" width="30" align="RIGHT" />
<li name="前文脈" type="preceding_context" element="_s...
attribute="_preceding_context" width="180" align="...
sort_direction="R" />
<li name="キー" type="key" element="_sys" attribute="_...
width="80" sort_order="1" />
<li name="後文脈" type="following_context" element="_s...
attribute="_following_context" width="160" sort_or...
<li name="著者" type="argument" element="simpledoc"
attribute="著者" width="80" />
<li name="タイトル" type="argument" element="simpledoc"
attribute="タイトル" width="80" />
</field_setting>
li 要素の name 属性に注目してください。これを見てわかる...
li 要素の属性のうち,本題に関係する四つの属性を見ていき...
:name 属性:|検索結果の列名です。この値を変更すれば,列の...
:type 属性:|ここでは,「argument」としてください。
:element, attribute 属性:|それぞれの属性値で,抽出対象の...
まず,抽出する属性の変更ですが,上で述べたように,li 要...
次に,抽出する属性を追加してみます。例として,「[[簡単...
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介" 作成日=...
資料に対して,「作成日」属性を追加したら,config_simple...
<li name="作成日" type="argument" element="simpledoc"
attribute="作成日" width="80" />
attribute 属性が「作成日」となっているのに注意してくだ...
*属性を抽出する要素を指定するには [#je1c9a13]
「[[簡単な検索用データの作成方法>全文検索システム『ひま...
具体的な状況として,複数の章からなる文書を考えてみます...
<simpledoc タイトル="全文検索システムについて" 筆者="国...
<章 タイトル="第1章 はじめに">
この文章では,... について述べます。
:
:
</章>
<章 タイトル="第2章 発表の手順">
本発表の手順は,次のとおりです。
:
:
</章>
</simpledoc>
ここで,第2章に含まれる「本発表」を検索したとします。c...
まず,抽出対象の属性を含んだ要素を設定ファイルに指定す...
<index_eix>
<li name="simpledoc" middle_name="sd" is_empty="false"
top="false" isBrowsed="true" />
</index_eix>
index_eix 要素中の個々の li 要素で属性抽出対象の要素を...
:name 属性:|属性抽出対象の要素名です。上の例の場合,li ...
:middle_name 属性:| 他の li 要素の middle_name 属性値と...
:isBrowsed 属性|「true」の場合は,閲覧対象の要素([ツール]...
:is_empty, top 属性|ここでは,詳しく説明しません。false ...
「章」要素を属性抽出対象の要素とするには,次の li 要素...
<li name="章" middle_name="section" is_empty="false" top...
li 要素の追加が終わったら,[ツール]→[インデックス生成]...
<corpora name="simpledoc">
<li name="simpledoc" path="Corpora/Simpledoc/corpus"/>
</corpora>
以上で,index_eix 要素のほうの準備は,完了です。後は,...
<li name="章のタイトル" type="argument" element="章"
attribute="タイトル" width="80" />
*全文検索対象の要素を指定するには [#wa8b27a0]
全文検索対象の要素は,index_cix 要素で指定します。confi...
<index_cix>
<li name="simpledoc" label="本文" middle_name="sd" ty...
field_name="キー" />
</index_cix>
li 要素の内容は,次のとおりです。
:name 属性:|全文検索対象の要素名です。上の例の場合,li ...
:label 属性:|検索対象の選択メニューに表示される文字列で...
:middle_name 属性:| 索引ファイル名の一部となります。他の...
:type 属性:| 「normal」としてください。
:field_name 属性:| 検索結果を表示する列名を指定します。...
index_cix 要素内の li 要素は,次のように,複数指定する...
<index_cix>
<li name="章" label="本文" middle_name="sd1" type="no...
field_name="キー" />
<li name="あとがき" label="あとがき" middle_name="sd2...
field_name="キー" />
<li name="前書き" label="前書き" middle_name="sd3" ty...
field_name="キー" />
</index_cix>
*複数の言語資料をまとめて検索するには&aname(searching_cor...
検索対象の言語資料は,corpora 要素で指定します。config_...
<corpora name="simpledoc">
<li name="simpledoc" path="Corpora/Simpledoc/corpus" />
</corpora>
li 要素の内容は,次のとおりです。
:name 属性:|言語資料名を指定します。ver.1.3 では,検索対...
:path 属性:|言語資料の格納場所を指定します。上の例の場合...
複数の言語資料を検索するには,次のように li 要素を複数...
<corpora name="simpledoc">
<li name="simpledoc1" path="Corpora/Simpledoc1/corpus...
<li name="simpledoc2" path="Corpora/Simpledoc2/corpus...
</corpora>
*好みのブラウザで閲覧するには [#p2e53965]
ブラウザの設定は,設定ファイルの browsers 要素で指定し...
<browsers temp_file="__searched_tmp.xml" label="作品全体">
<li name="Microsoft Internet Explorer"
path="c:\progra~1\intern~1\iexplore" />
<li name="Mozilla" path="mozilla" />
</browsers>
一つの li 要素が一つのブラウザの設定を表します。一番始...
:name 属性:| [ツール]→[オプション]→[ブラウザ]で表示され...
:path 属性:| path 属性では,起動するブラウザのコマンドを...
好みのブラウザが設定されていない場合は,上記を参考にし...
なお,『ひまわり』 ver.1.2β03 では,li 要素に option 属...
<li name="Mozilla(Mac)" path="open" option="-a Mozilla"/>
*閲覧用の表示形式を変更するには [#m2f21fd1]
ブラウザによる閲覧用の表示形式は,設定ファイルの xsl_fi...
次は,config_simpledoc.xml の例です。xsl_files 要素の r...
<xsl_files root_path="Corpora/Simpledoc/xslt">
<li label="標準" name="simpledoc.xsl" />
</xsl_files>
li 要素は,複数指定することができます。複数指定した場合...
li 要素の内容は,次のとおりです。
:label 属性:|[ツール]→[オプション]→[ブラウザ] の表示され...
:name 属性:| XSL スタイルシートのファイル名を指定します...
----
*補足説明&aname(hosoku); [#b3551c11]
ここでは,XML に関する用語のうち,「要素」,「タグ」,...
-「開始タグ」から「終了タグ」までの部分を「要素」といいま...
-「開始タグ」と「終了タグ」は必ずペアになっています。
&ref(himawari_glossary1.png);
-ただし,「開始タグ」と「終了タグ」で囲われている部分(「...
<li name="simpledoc" path="Corpora/Simpledoc/corpus" />
-上の simpledoc 要素のように,「要素」に「属性」を付与す...
「属性」は「開始タグ」に記入します。上の例では,simpledoc...
終了行:
[[全文検索システム『ひまわり』]]
#contents
*はじめに [#h82273b3]
このページでは,設定ファイルで記述できる項目のうち,よ...
-本手引きは,「[[簡単な検索用データの作成方法>全文検索シ...
-『ひまわり』では,検索対象の資料が XML で記述されている...
--本ページ中に頻繁に現れる「要素」,「タグ」,「属性」な...
--XML 自体についての解説は,各種の入門書・Web ページをご...
*抽出する属性を追加,変更するには&aname(sec1); [#dc289b50]
『ひまわり』は,検索結果の文字列をマークアップしている...
まず,抽出する属性と『ひまわり』の設定ファイルとの関係...
<field_setting>
<li name="no" type="index" width="30" align="RIGHT" />
<li name="前文脈" type="preceding_context" element="_s...
attribute="_preceding_context" width="180" align="...
sort_direction="R" />
<li name="キー" type="key" element="_sys" attribute="_...
width="80" sort_order="1" />
<li name="後文脈" type="following_context" element="_s...
attribute="_following_context" width="160" sort_or...
<li name="著者" type="argument" element="simpledoc"
attribute="著者" width="80" />
<li name="タイトル" type="argument" element="simpledoc"
attribute="タイトル" width="80" />
</field_setting>
li 要素の name 属性に注目してください。これを見てわかる...
li 要素の属性のうち,本題に関係する四つの属性を見ていき...
:name 属性:|検索結果の列名です。この値を変更すれば,列の...
:type 属性:|ここでは,「argument」としてください。
:element, attribute 属性:|それぞれの属性値で,抽出対象の...
まず,抽出する属性の変更ですが,上で述べたように,li 要...
次に,抽出する属性を追加してみます。例として,「[[簡単...
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介" 作成日=...
資料に対して,「作成日」属性を追加したら,config_simple...
<li name="作成日" type="argument" element="simpledoc"
attribute="作成日" width="80" />
attribute 属性が「作成日」となっているのに注意してくだ...
*属性を抽出する要素を指定するには [#je1c9a13]
「[[簡単な検索用データの作成方法>全文検索システム『ひま...
具体的な状況として,複数の章からなる文書を考えてみます...
<simpledoc タイトル="全文検索システムについて" 筆者="国...
<章 タイトル="第1章 はじめに">
この文章では,... について述べます。
:
:
</章>
<章 タイトル="第2章 発表の手順">
本発表の手順は,次のとおりです。
:
:
</章>
</simpledoc>
ここで,第2章に含まれる「本発表」を検索したとします。c...
まず,抽出対象の属性を含んだ要素を設定ファイルに指定す...
<index_eix>
<li name="simpledoc" middle_name="sd" is_empty="false"
top="false" isBrowsed="true" />
</index_eix>
index_eix 要素中の個々の li 要素で属性抽出対象の要素を...
:name 属性:|属性抽出対象の要素名です。上の例の場合,li ...
:middle_name 属性:| 他の li 要素の middle_name 属性値と...
:isBrowsed 属性|「true」の場合は,閲覧対象の要素([ツール]...
:is_empty, top 属性|ここでは,詳しく説明しません。false ...
「章」要素を属性抽出対象の要素とするには,次の li 要素...
<li name="章" middle_name="section" is_empty="false" top...
li 要素の追加が終わったら,[ツール]→[インデックス生成]...
<corpora name="simpledoc">
<li name="simpledoc" path="Corpora/Simpledoc/corpus"/>
</corpora>
以上で,index_eix 要素のほうの準備は,完了です。後は,...
<li name="章のタイトル" type="argument" element="章"
attribute="タイトル" width="80" />
*全文検索対象の要素を指定するには [#wa8b27a0]
全文検索対象の要素は,index_cix 要素で指定します。confi...
<index_cix>
<li name="simpledoc" label="本文" middle_name="sd" ty...
field_name="キー" />
</index_cix>
li 要素の内容は,次のとおりです。
:name 属性:|全文検索対象の要素名です。上の例の場合,li ...
:label 属性:|検索対象の選択メニューに表示される文字列で...
:middle_name 属性:| 索引ファイル名の一部となります。他の...
:type 属性:| 「normal」としてください。
:field_name 属性:| 検索結果を表示する列名を指定します。...
index_cix 要素内の li 要素は,次のように,複数指定する...
<index_cix>
<li name="章" label="本文" middle_name="sd1" type="no...
field_name="キー" />
<li name="あとがき" label="あとがき" middle_name="sd2...
field_name="キー" />
<li name="前書き" label="前書き" middle_name="sd3" ty...
field_name="キー" />
</index_cix>
*複数の言語資料をまとめて検索するには&aname(searching_cor...
検索対象の言語資料は,corpora 要素で指定します。config_...
<corpora name="simpledoc">
<li name="simpledoc" path="Corpora/Simpledoc/corpus" />
</corpora>
li 要素の内容は,次のとおりです。
:name 属性:|言語資料名を指定します。ver.1.3 では,検索対...
:path 属性:|言語資料の格納場所を指定します。上の例の場合...
複数の言語資料を検索するには,次のように li 要素を複数...
<corpora name="simpledoc">
<li name="simpledoc1" path="Corpora/Simpledoc1/corpus...
<li name="simpledoc2" path="Corpora/Simpledoc2/corpus...
</corpora>
*好みのブラウザで閲覧するには [#p2e53965]
ブラウザの設定は,設定ファイルの browsers 要素で指定し...
<browsers temp_file="__searched_tmp.xml" label="作品全体">
<li name="Microsoft Internet Explorer"
path="c:\progra~1\intern~1\iexplore" />
<li name="Mozilla" path="mozilla" />
</browsers>
一つの li 要素が一つのブラウザの設定を表します。一番始...
:name 属性:| [ツール]→[オプション]→[ブラウザ]で表示され...
:path 属性:| path 属性では,起動するブラウザのコマンドを...
好みのブラウザが設定されていない場合は,上記を参考にし...
なお,『ひまわり』 ver.1.2β03 では,li 要素に option 属...
<li name="Mozilla(Mac)" path="open" option="-a Mozilla"/>
*閲覧用の表示形式を変更するには [#m2f21fd1]
ブラウザによる閲覧用の表示形式は,設定ファイルの xsl_fi...
次は,config_simpledoc.xml の例です。xsl_files 要素の r...
<xsl_files root_path="Corpora/Simpledoc/xslt">
<li label="標準" name="simpledoc.xsl" />
</xsl_files>
li 要素は,複数指定することができます。複数指定した場合...
li 要素の内容は,次のとおりです。
:label 属性:|[ツール]→[オプション]→[ブラウザ] の表示され...
:name 属性:| XSL スタイルシートのファイル名を指定します...
----
*補足説明&aname(hosoku); [#b3551c11]
ここでは,XML に関する用語のうち,「要素」,「タグ」,...
-「開始タグ」から「終了タグ」までの部分を「要素」といいま...
-「開始タグ」と「終了タグ」は必ずペアになっています。
&ref(himawari_glossary1.png);
-ただし,「開始タグ」と「終了タグ」で囲われている部分(「...
<li name="simpledoc" path="Corpora/Simpledoc/corpus" />
-上の simpledoc 要素のように,「要素」に「属性」を付与す...
「属性」は「開始タグ」に記入します。上の例では,simpledoc...
ページ名: