この文書は,「ひまわり」の設定ファイルのリファレンスである。
コーパス集合を定義する要素
<corpora name="「太陽」コーパス"> <li name="「太陽」" path="Corpora/Zassi/Taiyo/corpus" /> <li name="女性雑誌" path="Corpora/Zassi/Josei/corpus" /> </corpora>
要素内容への索引
<index_cix> <li label="本文" name="雑誌" middle_name="magazine" type="normal" field_name="キー" /> <li label="本文(s 要素考慮)" name="雑誌" middle_name="magazine" type="normal" stop_element="s" field_name="キー" /> </index_cix>
要素への索引
<index_eix> <li name="雑誌" middle_name="magazine" is_empty="false" top="true" /> <li name="記事" middle_name="article" is_empty="false" isBrowsed="true" /> <li name="引用" middle_name="quote" is_empty="false" /> <li name="l" middle_name="ref" is_empty="true" /> </index_eix>
要素属性への索引
<index_aix> <li label="ルビ(rt)完全一致" name="r" middle_name="r" argument="rt" isCompleteMatch="true" field_name="キー" /> <li label="ルビ(rt)部分一致" name="r" middle_name="r2" argument="rt" type="record_based" isCompleteMatch="false" field_name="キー" /> <li label="外字(name)" name="外字" middle_name="gaiji" argument="name" isCompleteMatch="true" field_name="キー" /> </index_aix>
結果レコードのフィールド定義
<field_setting> <li name="no" type="index" width="30" align="RIGHT" sort_direction ="L" /> <li name="類似する語(前)" type="preceding_context" element="_sys" attribute="_preceding_context" width="180" align="RIGHT" sort_direction="R" /> <li name="表記" type="key" element="_sys" attribute="_key" width="80" align="LEFT" sort_direction="L" /> <li name="類似する語(後)" type="following_context" element="_sys" attribute="_following_context" width="160" align="LEFT" sort_direction="L" /> <li name="見出し" type="argument" element="e" attribute="見出し" width="80" align="LEFT" sort_direction="L" sort_order="1" /> <li name="概念パス" type="argument" element="c" attribute="概念パス" width="80" align="LEFT" sort_direction="L" sort_order="2"/> <li name="分類番号" type="argument" element="c" attribute="分類番号" width="80" align="LEFT" sort_direction="L" /> <li name="行番号" type="argument" element="s" attribute="行番号" width="80" align="LEFT" sort_direction="L" /> <li name="行内番号" type="argument" element="l" attribute="行内番号" width="80" align="LEFT" sort_direction="L" /> </field_setting>
KWIC の文脈長を定義
<length_context_kwic value="10" />
正規表現検索時の照合文字列長の定義
<length_context_search value="10" />
前文脈の制約値を定義。この値は,前文脈欄の history 機能の履歴として登録される。
<preceding_context_constraint value="[^0-9ァ-ヴーa-zA-Z./・:][^0-9ァ-ヴーa-zA-Z\s]?$" />
後文脈の制約値を定義。この値は,後文脈欄の history 機能の履歴として登録される。
<following_context_constraint value="^[^0-9ァ-ヴーa-zA-Z\s]?[^0-9ァ-ヴーa-zA-Z./・:]" />
GUI のフォントサイズの定義
<fontsize value="14" />
メニュー項目 [ツール]→[インデックス生成] を表示するか否か
<isIndexingEnable value="true" />
メニュー項目 [ツール]→[コーパスファイル生成] を表示するか否か
<isGenerateCorpusFileEnable value="false" />
閲覧用の WWW ブラウザの定義(1.7から .himawari_sys_config.xmlへ移動)
<browsers temp_file="__searched_tmp.xml" label="記事"> <li name="Microsoft Internet Explorer" path="c://progra~1/intern~1/iexplore" /> <li name="Mozilla" path="mozilla" /> </browsers>
閲覧用の XSL ファイルに関する定義
<xsl_files root_path="xslt"> <li label="横書き・段落表示" name="zassiHP.xsl" /> <li label="横書き・行番号表示" name="zassiHL.xsl" /> <li label="縦書き・段落表示" name="zassiVP.xsl" /> <li label="縦書き・行番号表示" name="zassiVL.xsl" /> </file_xsl>
外部ツールへのアクセス方法の定義。後述のaccess_command1, 2要素では,2個までしか定義できなかったが,3個以上定義できるようにした。また,OS別の記述も可能
外部ツールへのアクセス方法の定義(2通り定義できる)。ver.1.6からexternal_tools 要素を推奨。
<access_command1 label="著者情報" path="[[xdb1]]" argument="((著者))" /> <access_command1 label="著者DB" path="[[xdb1]]" argument="((著者)) 400px" field="著者ID"/>
[ツール]→[一覧]から参照される外部データベースの参照形態を定義する。また,ext_db1, ext_db2 は,それぞれ xdb1, xdb2 用の設定である。
<ext_db name="著者DB" url="authors.xml" record_name="著者" key="氏名"> <li name="氏名" width="100" sort_order="1" /> <li name="氏名よみ" width="100" /> <li name="所属" width="80" /> <li name="分野" width="80" /> <li name="生年" width="50" align="RIGHT" /> <li name="没年" width="50" align="RIGHT" /> </ext_db>
字体辞書の定義
<jitaidic url="jitaidic.xml" />
収録しているコーパスの一覧を表示する
閲覧対象要素の一覧を表示する。閲覧対象要素は,index_eix/@isBrowsed で定義する。
指定した要素の一覧を表示する。なお,element 要素は複数記述することができる。
頻度計算するのに利用するフィールドの定義
<li name="キー" width="40" /> <li name="年" width="50" align="RIGHT" /> <li name="号" width="50" align="RIGHT" /> <li name="頻度" width="60" align="RIGHT" sort_type="numeric" />
インポート時のデフォルトのインポート対象ファイルを設定
<target_file_type names="txt,xhtml" />
インポート時のデフォルトの文字正規化方法を設定
<char_normalization name="none" />
インポート時のテキスト変換用テーブルの設定。import/char_normalization[@name="user_defined"]の時に使用される。文字の対応は @from と @to で,先頭から1文字ずつが対応するように定義する。
<char_convertion_table from="0123456789" to="0123456789" />
インポート時のテキスト置換用定義ファイルを指定
<text_transformation_definition dir="resources/htd" default="aozora.htd" />
# 改行位置に,<br />を挿入 \n <br />\n # ルビ(範囲指定あり) [|](.+?)《(.+?)》 <r rt="$2">$1</r>
インポート時の XHTML ファイル用のスタイルシートを指定
<xhtml_style_sheet dir="resources/xsl/xhtml" default="xhtml2xml_aozora.xsl" isTidied="true" />
インポート時の XML ファイル用のスタイルシートを指定
<xml_style_sheet dir="resources/xsl/xml" default="xml.xsl" />
インポート対象フォルダの直下のフォルダをサブコーパスとしてインポートする。
<include_subcorpora value="true" />
インポート時にすぐ索引づけしないように設定する。
<not_now_indexing value="true" />
インポート時にコピーするファイルを指定する。なお,ファイルのパスの起点は,ユーザが指定したインポート対象のフォルダである。
<source_files corpus_dir="test_src" corpus_name="test" config1="config.test.xml" config2="config.test.db.xml" xslt_dir="xslt" aux_dir="aux" />
アノテーションをするための外部プログラムの定義
<extract element="" attribute="" value="" /> ... 全要素を対象とする <extract element="s" attribute="" value="" /> ... s 要素を対象とする <extract element="引用" attribute="種別" value="会話" /> ... 「引用」要素のうち,「種別」属性が「会話」のものを対象とする
<chunk delimitor="[。?]+" maxlength="200" />
<li name="_TEXT" isIndexed="true" /> <li name="読み" /> <li name="基本形" /> <li name="品詞" /> <li name="細品詞" /> <li name="活用型" /> <li name="活用形" />
「ひまわり」マニュアルの URL の定義 (ver.1.7から .himawari_sys_config.xmlへ移動)
<manual url="manual/index.html" />
「ひまわり」ホームページの URL の定義 (ver.1.7から .himawari_sys_config.xmlへ移動)
<hp url="http://mimir.corpus.rd1.local/resource/index.php" />
パッケージ用のマニュアルの URL の定義 (since ver.1.7)
<package_manual url="https://csd.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9/%A1%D8%C6%FC%CB%DC%B8%EC%C6%FC%BE%EF%B2%F1%CF%C3%A5%B3%A1%BC%A5%D1%A5%B9%A1%D9%A5%E2%A5%CB%A5%BF%A1%BC%B8%F8%B3%AB%C8%C7" />
パッケージ用のホームページの URL の定義 (since ver.1.7)
<package_hp url="https://www2.ninjal.ac.jp/conversation/corpus.html" />
設定ファイル全体のルート要素
パッケージインストール設定ファイル(.himawari_package_info)は,インストール機能([ファイル]⇒[インストール],ver.1.5 以降)に対応したパッケージに同梱されるもので,インストールするファイルのリストが記述される。
Corpora/Bunrui config_bunrui.xml
Corpora/Aozora config_aozora.xml config_aozora.db.xml