全文検索システム『ひまわり』/設定ファイルリファレンスマニュアル
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
*はじめに [#w140b63c]
この文書は,「ひまわり」の設定ファイルのリファレンスで...
#contents
*設定一覧 [#hfee5fa7]
**コーパス,索引ファイル関連 [#v20eef03]
***&aname(corpora){corpora 要素}; [#k3a0184b]
コーパス集合を定義する要素
-属性
--name: コーパス集合名
--dbpath: データベースへのパス(存在しない場合は,一つ目の...
-li (空要素)
--@name: コーパス名
--@path: コーパスファイル名へのパス+コーパスファイル名の...
--@isSelected &color(red){(since ver.1.3)};: 検索対象とす...
---false: しない
---true: する(default)
-例
<corpora name="「太陽」コーパス">
<li name="「太陽」" path="Corpora/Zassi/Taiyo/corpus" />
<li name="女性雑誌" path="Corpora/Zassi/Josei/corpus" />
</corpora>
***index_cix 要素 [#gd128a20]
要素内容への索引
-li (空要素)
--@name: 索引対象の要素名
--@label: 検索対象選択メニューに表示される文字列
--@middle_name: 索引ファイルの第2拡張子(ファイル名の末尾...
--@field_name: 結果レコードに照合した文字列を格納するフィ...
--@type: 索引タイプ
---normal (default) ... 指定された要素の索引を作成する(検...
---record_based ... 指定された要素の索引を作成する(検索文...
---null ... 検索時に索引を使用しない(正規表現が利用可能...
---restricted &color(red){(obsoleted since ver.1.3)};
--@stop_element: ストップ要素名
--@isEditable: 編集の可否 &color(red){(since ver.1.3)};
---true
---false (default)
-例
<index_cix>
<li label="本文" name="雑誌" middle_name="magazine"
type="normal" field_name="キー" />
<li label="本文(s 要素考慮)" name="雑誌" middle_name="...
type="normal" stop_element="s" field_name="キー" />
</index_cix>
***index_eix 要素 [#nbdfec70]
要素への索引
-li (空要素)
--@name: 索引対象の要素名
--@middle_name: 索引ファイルの第2拡張子(ファイル名の末尾...
--@is_empty: 空要素か否か
---true (= empty_forward)
---false (default)
---empty_forward(後方検索) ... マッチした文字列の後方に...
---empty_backward(前方検索)... マッチした文字列の前方に...
--@top: 資料の最大要素
--@isBrowsed: 閲覧対象の要素か否か
-例
<index_eix>
<li name="雑誌" middle_name="magazine" is_empty="fals...
<li name="記事" middle_name="article" is_empty="false...
<li name="引用" middle_name="quote" is_empty="false" />
<li name="l" middle_name="ref" is_empty="true" />
</index_eix>
***index_aix 要素 [#w1c92f72]
要素属性への索引
-li (空要素)
--@name: 索引対象の要素名
--@argument: 索引対象の属性名
--@label: 検索対象選択メニューに表示される文字列
--@middle_name: 索引ファイルの第2拡張子(ファイル名の末尾...
--@field_name: 結果レコードに照合した文字列を格納するフィ...
--@type: 索引タイプ
---normal (default) ... 指定したキーで属性を検索
---record_based ... 指定したキーで属性を検索(前後文脈を...
---db ... データベースに格納されたアノテーション情報に基...
---six ...
--@isCompleteMatch: 完全一致検索をするか否か(このオプショ...
---true
---false (default)
-例
<index_aix>
<li label="ルビ(rt)完全一致" name="r" middle_name="r"...
isCompleteMatch="true" field_name="キー" />
<li label="ルビ(rt)部分一致" name="r" middle_name="r2...
type="record_based" isCompleteMatch="false" field...
<li label="外字(name)" name="外字" middle_name="gaiji...
isCompleteMatch="true" field_name="キー" />
</index_aix>
**検索設定関連 [#m8e2079b]
***field_setting 要素 [#xb8cadd1]
結果レコードのフィールド定義
-li (空要素)
--@name: フィールド名
--@type: フィールドタイプ
---argument: 属性検索
---sibling: 兄弟要素検索
---relative: 隣接要素検索
---index: レコード索引(行番号)
---db: データベース検索 &color(red){(since ver.1.5)};
--@width: フィールド幅 (default: 40)
--@align: 文字揃え
---LEFT (default)
---CENTER
---RIGHT
--@edit_type: 編集タイプ &color(red){(since ver.1.5)};
---TEXT ... 自由記述(default)
---SELECT ... 選択記述
--@edit_option: 編集オプション &color(red){(since ver.1.5...
--@element: 表示対象の要素
--- 特殊要素 _EDIT ... 編集
--@attribute: 表示対象の要素属性
--@isEditable: 編集の可否 &color(red){(since ver.1.5)};
--- true ... 編集可能
--- false ... 編集不可(default)
--@sort_direction: ソート方向
---L ... 左から右(default)
---R ... 右から左
--@sort_order: ソート順位 (1〜)
--@sort_type: ソートの種類
---string (default) ... 文字列としてソート
---numeric ... 数字としてソート
-例
<field_setting>
<li name="no" type="index" width="30" align="RIGHT" s...
<li name="類似する語(前)" type="preceding_context" el...
attribute="_preceding_context" width="180" align=...
sort_direction="R" />
<li name="表記" type="key" element="_sys" attribute="...
align="LEFT" sort_direction="L" />
<li name="類似する語(後)" type="following_context" el...
attribute="_following_context" width="160" align=...
sort_direction="L" />
<li name="見出し" type="argument" element="e" attribu...
align="LEFT" sort_direction="L" sort_order="1" />
<li name="概念パス" type="argument" element="c" attri...
width="80" align="LEFT" sort_direction="L" sort_o...
<li name="分類番号" type="argument" element="c" attri...
width="80" align="LEFT" sort_direction="L" />
<li name="行番号" type="argument" element="s" attribu...
align="LEFT" sort_direction="L" />
<li name="行内番号" type="argument" element="l" attri...
width="80" align="LEFT" sort_direction="L" />
</field_setting>
***length_context_kwic 要素 [#v72242d7]
KWIC の文脈長を定義
-@value: 文脈長(文字)
-例
<length_context_kwic value="10" />
***length_context_search 要素 [#ma8cc1da]
正規表現検索時の照合文字列長の定義
-@value: 文脈長(文字)
-例
<length_context_search value="10" />
*** preceding_context_constraint 要素 [#c3ed247d]
前文脈の制約値を定義。この値は,前文脈欄の history 機能...
-@value: 制約値
-例
<preceding_context_constraint
value="[^0-9ァ-ヴーa-zA-Z./・:][^0-9ァ-ヴー...
*** following_context_constraint 要素 [#e5e96051]
後文脈の制約値を定義。この値は,後文脈欄の history 機能...
-@value: 制約値
-例
<following_context_constraint
value="^[^0-9ァ-ヴーa-zA-Z\s]?[^0-9ァ-ヴーa-z...
**GUI 関連 [#h02e1e44]
***fontsize 要素 [#nf0aeb7c]
GUI のフォントサイズの定義
-@value: 7 〜 18 (pt)
-例
<fontsize value="14" />
*** isIndexingEnable 要素 [#pbc9cf50]
メニュー項目 ''[ツール]→[インデックス生成]'' を表示する...
-@value
--true
--false (default)
-例
<isIndexingEnable value="true" />
*** isGenerateCorpusFileEnable 要素(&color(red){ver.1.5で...
メニュー項目 ''[ツール]→[コーパスファイル生成]'' を表示...
-@value
--true
--false (default)
-例
<isGenerateCorpusFileEnable value="false" />
**閲覧関連 [#w453b036]
***browsers 要素 [#i45d9c2f]
閲覧用の WWW ブラウザの定義(1.7から .himawari_sys_confi...
-@temp_file: ブラウズ時のテンポラリファイル
--@label: [ツール]→[閲覧]中の項目文字列
-li (空要素)
--@name: ブラウザ名
--@path: ブラウザの実行プログラムへのパス
--- パスに "Program Files" を含み,起動に失敗した場合,"P...
--- [[default_browser]]の場合は,OSの...
--@option: ブラウザ実行時のオプション
--@os: 対応するOS名
--- Windows
--- Mac
--- Linux
--%%@omit_scheme%% ... &color(red){廃止};
---true ... isBrowsed が true の要素閲覧時の URL に対して...
---true 以外 ... スキームを付ける。
-例
<browsers temp_file="__searched_tmp.xml" label="記事">
<li name="Microsoft Internet Explorer"
path="c://progra~1/intern~1/iexplore" />
<li name="Mozilla" path="mozilla" />
</browsers>
***xsl_files 要素 [#pe6d89a2]
閲覧用の XSL ファイルに関する定義
-@root_path: XSL ファイルを格納しているディレクトリのルー...
-@temp_dir: XSL ファイルを格納しているディレクトリのルー...
-li (空要素)
--@name: XSL ファイル名
--@label:
-例
<xsl_files root_path="xslt">
<li label="横書き・段落表示" name="zassiHP.xsl" />
<li label="横書き・行番号表示" name="zassiHL.xsl" />
<li label="縦書き・段落表示" name="zassiVP.xsl" />
<li label="縦書き・行番号表示" name="zassiVL.xsl" />
</file_xsl>
**外部データベース関連 [#o81ee2f0]
***external_tools 要素 (&color(red){since ver.1.6};)[#l99...
外部ツールへのアクセス方法の定義。後述の[[access_comman...
- li (空要素)
-- @field: 実行プログラムの起動用フィールド。検索結果ウ...
-- @path: 実行プログラム。[[]]で囲う。セ...
--- VLC
--- FishWatchr
--- Firefox
--- Chrome
--- Safari (macOSのみ)
--- Edge (Windowsのみ)
--- soundplayer ... 第1引数: サウンドファイル,第2引数:...
--- xdb1, xdb2 ... 第1引数: DB検索キー,第2引数: 結果表...
--- browser ... 第一引数: URL
-- @argument: 実行プログラムの引数
---(())で囲われている場合は,検索結果中の...
--- @field が指定されておらず,@argument の値がフィールド...
--- 内部コマンドでない場合,@argument中の引数が複数ある場...
--- {{PWD}}は『ひまわり』実行ファイルのパスに置き換えられ...
-- @name: 設定名(重複しないように設定すること)。メニュ...
-- @os: 対応するOS名
--- Windows
--- Mac
--- Linux
***access_command1, access_command2 要素 (deprecated)[#ha...
外部ツールへのアクセス方法の定義(2通り定義できる)。ver....
-@label: メニュー用のラベル
-@path: 実行プログラムへのパス。ただし,[[]] で囲われてい...
--soundplayer ... 音声再生用プログラム
--xdb1, xdb2 ... 簡易データベース検索プログラム。それぞれ...
--browser ... ブラウザ。browser 要素で指定されたプログラ...
-@argument: 実行プログラムの引数
--(())で囲われている場合は,検索結果中の...
--@field が指定されておらず,@argument の値がフィールド指...
-- 内部コマンドでない場合,@argument中の引数が複数ある場...
--内部コマンドの引数
---soundplayer ... 第1引数: サウンドファイル,第2引数:...
---xdb1, xdb2 ... 第1引数: DB検索キー,第2引数: 結果表...
---browser ... 第一引数: URL
-@field: 実行プログラムの起動用フィールド。検索結果ウィン...
-例
<access_command1 label="著者情報" path="[[xdb1]]" argum...
<access_command1 label="著者DB" path="[[xdb1]]" argumen...
field="著者ID"/>
***ext_db1, ext_db2 要素 [#ic1c64ac]
[ツール]→[一覧]から参照される外部データベースの参照形態...
-@name: データベース名。この名前は,[ツール]→[一覧]で表示...
-@url: データベースファイルへの URL
-@record_name: 検索対象のレコード名
-@key: 検索対象のフィールド名
-li (空要素)
--@name: フィールド名
--@width: フィールド幅 (default: 40)
--@align: 文字揃え
--@sort_order: ソート順位 (1〜)
--@sort_type: ソートの種類
---string (default) ... 文字列としてソート
---numeric ... 数字としてソート
-例
<ext_db name="著者DB" url="authors.xml" record_name="著...
<li name="氏名" width="100" sort_order="1" />
<li name="氏名よみ" width="100" />
<li name="所属" width="80" />
<li name="分野" width="80" />
<li name="生年" width="50" align="RIGHT" />
<li name="没年" width="50" align="RIGHT" />
</ext_db>
***jitaidic 要素 [#affaa2dd]
字体辞書の定義
-@url: 字体辞書ファイルのURL
-例
<jitaidic url="jitaidic.xml" />
**一覧表示機能関連 [#ob3bf0f2]
***corpus_fields [#we9d8381]
収録しているコーパスの一覧を表示する
***unit_fields [#he1015c2]
閲覧対象要素の一覧を表示する。閲覧対象要素は,index_eix...
***user_defined_lists (&color(red){since ver.1.6, 未確定}...
指定した要素の一覧を表示する。なお,element 要素は複数...
- @label: (廃止予定)
- element 要素
-- @name: 一覧対象の要素名
-- @label: メニュー表示用のラベル
-- li 要素
--- @name: 表示用のフィールド名
--- @element: 表示する属性の要素名(ただし,一覧する要素...
--- @attribute: 表示する属性名
&br;なお,特殊な属性値として,_contents (要素内容を表示)...
--- @width: フィールド幅
--- @align: 文字揃え
--- @sort_order: ソート順位 (1〜)
--- @sort_type: ソートの種類
***stat_fields_1, stat_fields_2, stat_fields_3 [#ncda1b19]
頻度計算するのに利用するフィールドの定義
-@label: [ツール]→[統計]メニュー用のラベル
-li (空要素)
--@name: フィールド名
--@width: フィールド幅 (default: 40)
--@align: 文字揃え
--@sort_order: ソート順位 (1〜)
--@sort_type: ソートの種類
---string (default) ... 文字列としてソート
---numeric ... 数字としてソート
-例
<li name="キー" width="40" />
<li name="年" width="50" align="RIGHT" />
<li name="号" width="50" align="RIGHT" />
<li name="頻度" width="60" align="RIGHT" sort_type="...
** インポート関連 (&color(red){since 1.5β};) [#maa47222]
*** import / target_file_type 要素 [#ta759847]
インポート時のデフォルトのインポート対象ファイルを設定
- @names: 対象ファイルの種類
-- txt: テキストファイル
-- xhtml: HTML,および,XHTML ファイル
-- xml: XML ファイル
-例
<target_file_type names="txt,xhtml" />
*** import / char_normalization 要素 [#t9f65b3f]
インポート時のデフォルトの文字正規化方法を設定
- @name: 正規化方法
-- none: なし
-- user_defined: ユーザ定義
-- nfkc: NFKC (Unicode)
-例
<char_normalization name="none" />
*** import / char_convertion_table 要素 [#bcbacdb8]
インポート時のテキスト変換用テーブルの設定。import/char...
- @from: 変換前
- @to: 変換後
-例(数字の半角⇒全角変換)
<char_convertion_table from="0123456789" to="01234...
*** import / text_transformation_definition 要素 [#kd375f...
インポート時のテキスト置換用定義ファイルを指定
- @dir: 定義ファイルが存在するフォルダ
- @default: デフォルトの定義ファイル名
- 例
<text_transformation_definition dir="resources/htd" defa...
- 定義ファイルの仕様
-- 例
# 改行位置に,<br />を挿入
\n <br />\n
# ルビ(範囲指定あり)
[|](.+?)《(.+?)》 <r rt="$2">$1</r>
-- 置換規則は,先頭から順番に適用される。
-- 定義ファイルの文字コードは,UTF-8 で記述する。
-- 置換対象の文字列は正規表現で指定する。正規表現は Java ...
-- 置換対象,置換文字列はタブで区切る。置換文字列には,$1...
[[java.util.regrex.Matcher クラス>http://docs.oracle.com/...
-- 先頭が # で,タブの数が一つでない行は,コメントとみな...
*** import / xhtml_style_sheet 要素 [#b01441ae]
インポート時の XHTML ファイル用のスタイルシートを指定
- @dir: スタイルシートファイルが存在するフォルダ
- @default: デフォルトのスタイルシートファイル
- @isTidied: HTML⇒XHTML変換の可否のデフォルト値
-- true: 変換する
-- false: 変換しない
- 例
<xhtml_style_sheet dir="resources/xsl/xhtml" default="xh...
*** import / xml_style_sheet 要素 [#g64531d8]
インポート時の XML ファイル用のスタイルシートを指定
- @dir: スタイルシートファイルが存在するフォルダ
- @default: デフォルトのスタイルシートファイル
- 例
<xml_style_sheet dir="resources/xsl/xml" default="xml.xs...
*** import / as_subcorpora 要素 (&color(red){since 1.5β04...
インポート対象フォルダの直下のフォルダをサブコーパスと...
- @value:
-- false: サブコーパスとしない(default)
-- true: サブコーパスとする
- 例
<include_subcorpora value="true" />
*** import / not_now_indexing 要素 (&color(red){since 1.5...
インポート時にすぐ索引づけしないように設定する。
- @value:
-- true: すぐ索引づけしない
-- false: すぐ索引づけする(default)
- 例
<not_now_indexing value="true" />
*** import / source_files 要素 (&color(red){since 1.5β04}...
インポート時にコピーするファイルを指定する。なお,ファ...
- @corpus_dir: コーパスのソースファイルを格納したフォルダ
- @corpus_name: コーパス名
- @config_file1: 設定ファイル1(必須)
- @config_file2: 設定ファイル2(任意)
- @xslt_dir: xslt のフォルダ
- @aux_dir: 補助フォルダ
- 例
<source_files corpus_dir="test_src" corpus_name="test"
config1="config.test.xml" config2="conf...
xslt_dir="xslt" aux_dir="aux" />
** アノテーション関連 [#jd2d1ef5]
*** annotator 要素 (&color(red){since 1.5β};) [#d830111c]
アノテーションをするための外部プログラムの定義
-li 要素 ... 一つの外部プログラム
--@name: 外部プログラム名
--@os: 対象のOS
--@annotation: アノテーション名 (field_setting/li/@type="...
--@command: 外部プログラムへのパス (パス中に「Program Fil...
--@option: 外部プログラム実行時のオプション
--@encoding: 外部プログラムが入力として想定する文字コード...
-li/extract ... コーパス中でアノテーションの対象となる要素
--@name ... 要素名
--@attribute ... 要素の属性名
--@value ... 属性値
--例
<extract element="" attribute="" value="" /> ... 全要素...
<extract element="s" attribute="" value="" /> ... s 要素...
<extract element="引用" attribute="種別" value="会話" />
... 「引用」要素のうち,「種別」属...
--注意
--- @attribute を指定しない場合,@name で指定した任意の要...
--- 指定する要素は,連続しているか,改行で区切られていな...
-li/chunk ... extract 要素で指定されたコーパス中の要素を...
--@delimitor ... 単位分割するための正規表現
--@maxlength ... 1処理単位に含まれる最大文字数(これを超...
--例(最大200文字で,「。」または「?」で区切られる単位を...
<chunk delimitor="[。?]+" maxlength="200" />
-li/result_fields ... 外部プログラムの出力の形式を定義す...
--@delimitor ... 外部プログラムの出力結果のフィールド区切...
--li/@name ... フィールド名
--- li 要素の順序は,外部プログラムの出力結果のフィールド...
--- field_setting/li/@type="db" のとき,field_setting/li/...
--- "_TEXT"は,解析対象の文字列(形態素解析の場合は,出現...
--- "_unused"で始まる場合,辞書のフィールドとして追加しな...
--li/@isIndexed ... field_setting/li/@type="db" 用の索引...
--- true: 索引あり
--- false: 索引なし(default)
--li/@contextLength ... 前後要素長 (&color(red){since 1.6...
--- 当該要素の前後n個分のフィールドを検索結果に追加する
--- @name="基本形",@contextLength=2のとき,四つのフィー...
--例
<li name="_TEXT" isIndexed="true" />
<li name="読み" />
<li name="基本形" />
<li name="品詞" />
<li name="細品詞" />
<li name="活用型" />
<li name="活用形" />
**「ひまわり」資料参照関連 [#lee5061d]
***manual 要素 [#w4d7ae3a]
「ひまわり」マニュアルの URL の定義 (ver.1.7から .himaw...
-@url: 「ひまわり」マニュアルの URL (なお,URL にプロトコ...
-例
<manual url="manual/index.html" />
***hp 要素 [#v2cafd89]
「ひまわり」ホームページの URL の定義 (ver.1.7から .him...
-@url: 「ひまわり」ホームページの URL
-例
<hp url="http://mimir.corpus.rd1.local/resource/index.ph...
***package_manual 要素 [#n8256b2c]
パッケージ用のマニュアルの URL の定義 (since ver.1.7)
-@url: パッケージ用のマニュアルの URL
-例
<package_manual url="https://csd.ninjal.ac.jp/lrc/index....
***package_hp 要素 [#v57d8186]
パッケージ用のホームページの URL の定義 (since ver.1.7)
-@url: パッケージ用のホームページの URL
-例
<package_hp url="https://www2.ninjal.ac.jp/conversation/...
**全体設定 [#y86b7faf]
*** setting要素 [#w87b76db]
設定ファイル全体のルート要素
-@allowOverRide: 設定ファイル間で重複する要素の扱い (sinc...
-- true: 後から読み込まれた設定を優先する(デフォルト)。...
-- false: 後から読み込まれた設定は無視する
* 『ひまわり』の設定ファイル [#h3fd2c2b]
- config.xml
-- 『ひまわり』に付属している『青空文庫サンプル』パッケー...
- config_xxx.xml (xxxはワイルドカード)
-- configで始まる設定ファイルは,各パッケージ用の設定ファ...
- .himawari_import_config.xml
-- インポート設定用のファイル
-- インポート用のパッケージに同梱することにより,個別設定...
-- ver.1.7からは,『ひまわり』フォルダ直下の .himawari_im...
- .himawari_annotator_config.xml
-- 外部アノテータ用の設定ファイル
-- ver.1.7からは .himawari_sys_config.xmlに統合される。
- .himawari_sys_config.xml (since ver.1.7)
-- パッケージとは独立した設定で,『ひまわり』自体を設定す...
-- インポート,外部アノテータ,ブラウザの設定を含む。
--- なお,ver.1.6まで,インポート,外部アノテータの設定は...
* パッケージインストール設定ファイル [#aff0b1a0]
パッケージインストール設定ファイル(.himawari_package_in...
** パッケージインストール設定ファイルの仕様 [#v1e77d3a]
- パッケージインストール設定ファイルの名前は,.himawari_p...
- パッケージ設定ファイルの文字コードは,UTF-8 とする。た...
- パッケージ設定ファイルには,『ひまわり』フォルダにコピ...
-- コピーするファイル,および,フォルダの指定は,『ひまわ...
-- コピー先は,次の場所に限定する。
--- Corpora フォルダ内
--- resources フォルダ内
--- 『ひまわり』フォルダ直下(この場合は,『ひまわり』設定...
-- フォルダを指定した場合,フォルダに含まれるすべてのファ...
- 『ひまわり』設定ファイルがパッケージに同梱されていれば...
** パッケージインストール設定ファイルの例 [#w29cc28b]
*** 『分類語彙表』パッケージ [#r6cd10e5]
Corpora/Bunrui
config_bunrui.xml
- パッケージの Corpora/Bunrui と config_bunrui.xml が『ひ...
- パッケージインストール後,config_bunrui.xml が読み込ま...
*** 『青空文庫』パッケージ [#vddb70a6]
Corpora/Aozora
config_aozora.xml
config_aozora.db.xml
- パッケージの Corpora/Aozora, config_aozora.xml, config_...
- パッケージインストール後,config_aozora.xml が読み込ま...
終了行:
[[全文検索システム『ひまわり』]]
*はじめに [#w140b63c]
この文書は,「ひまわり」の設定ファイルのリファレンスで...
#contents
*設定一覧 [#hfee5fa7]
**コーパス,索引ファイル関連 [#v20eef03]
***&aname(corpora){corpora 要素}; [#k3a0184b]
コーパス集合を定義する要素
-属性
--name: コーパス集合名
--dbpath: データベースへのパス(存在しない場合は,一つ目の...
-li (空要素)
--@name: コーパス名
--@path: コーパスファイル名へのパス+コーパスファイル名の...
--@isSelected &color(red){(since ver.1.3)};: 検索対象とす...
---false: しない
---true: する(default)
-例
<corpora name="「太陽」コーパス">
<li name="「太陽」" path="Corpora/Zassi/Taiyo/corpus" />
<li name="女性雑誌" path="Corpora/Zassi/Josei/corpus" />
</corpora>
***index_cix 要素 [#gd128a20]
要素内容への索引
-li (空要素)
--@name: 索引対象の要素名
--@label: 検索対象選択メニューに表示される文字列
--@middle_name: 索引ファイルの第2拡張子(ファイル名の末尾...
--@field_name: 結果レコードに照合した文字列を格納するフィ...
--@type: 索引タイプ
---normal (default) ... 指定された要素の索引を作成する(検...
---record_based ... 指定された要素の索引を作成する(検索文...
---null ... 検索時に索引を使用しない(正規表現が利用可能...
---restricted &color(red){(obsoleted since ver.1.3)};
--@stop_element: ストップ要素名
--@isEditable: 編集の可否 &color(red){(since ver.1.3)};
---true
---false (default)
-例
<index_cix>
<li label="本文" name="雑誌" middle_name="magazine"
type="normal" field_name="キー" />
<li label="本文(s 要素考慮)" name="雑誌" middle_name="...
type="normal" stop_element="s" field_name="キー" />
</index_cix>
***index_eix 要素 [#nbdfec70]
要素への索引
-li (空要素)
--@name: 索引対象の要素名
--@middle_name: 索引ファイルの第2拡張子(ファイル名の末尾...
--@is_empty: 空要素か否か
---true (= empty_forward)
---false (default)
---empty_forward(後方検索) ... マッチした文字列の後方に...
---empty_backward(前方検索)... マッチした文字列の前方に...
--@top: 資料の最大要素
--@isBrowsed: 閲覧対象の要素か否か
-例
<index_eix>
<li name="雑誌" middle_name="magazine" is_empty="fals...
<li name="記事" middle_name="article" is_empty="false...
<li name="引用" middle_name="quote" is_empty="false" />
<li name="l" middle_name="ref" is_empty="true" />
</index_eix>
***index_aix 要素 [#w1c92f72]
要素属性への索引
-li (空要素)
--@name: 索引対象の要素名
--@argument: 索引対象の属性名
--@label: 検索対象選択メニューに表示される文字列
--@middle_name: 索引ファイルの第2拡張子(ファイル名の末尾...
--@field_name: 結果レコードに照合した文字列を格納するフィ...
--@type: 索引タイプ
---normal (default) ... 指定したキーで属性を検索
---record_based ... 指定したキーで属性を検索(前後文脈を...
---db ... データベースに格納されたアノテーション情報に基...
---six ...
--@isCompleteMatch: 完全一致検索をするか否か(このオプショ...
---true
---false (default)
-例
<index_aix>
<li label="ルビ(rt)完全一致" name="r" middle_name="r"...
isCompleteMatch="true" field_name="キー" />
<li label="ルビ(rt)部分一致" name="r" middle_name="r2...
type="record_based" isCompleteMatch="false" field...
<li label="外字(name)" name="外字" middle_name="gaiji...
isCompleteMatch="true" field_name="キー" />
</index_aix>
**検索設定関連 [#m8e2079b]
***field_setting 要素 [#xb8cadd1]
結果レコードのフィールド定義
-li (空要素)
--@name: フィールド名
--@type: フィールドタイプ
---argument: 属性検索
---sibling: 兄弟要素検索
---relative: 隣接要素検索
---index: レコード索引(行番号)
---db: データベース検索 &color(red){(since ver.1.5)};
--@width: フィールド幅 (default: 40)
--@align: 文字揃え
---LEFT (default)
---CENTER
---RIGHT
--@edit_type: 編集タイプ &color(red){(since ver.1.5)};
---TEXT ... 自由記述(default)
---SELECT ... 選択記述
--@edit_option: 編集オプション &color(red){(since ver.1.5...
--@element: 表示対象の要素
--- 特殊要素 _EDIT ... 編集
--@attribute: 表示対象の要素属性
--@isEditable: 編集の可否 &color(red){(since ver.1.5)};
--- true ... 編集可能
--- false ... 編集不可(default)
--@sort_direction: ソート方向
---L ... 左から右(default)
---R ... 右から左
--@sort_order: ソート順位 (1〜)
--@sort_type: ソートの種類
---string (default) ... 文字列としてソート
---numeric ... 数字としてソート
-例
<field_setting>
<li name="no" type="index" width="30" align="RIGHT" s...
<li name="類似する語(前)" type="preceding_context" el...
attribute="_preceding_context" width="180" align=...
sort_direction="R" />
<li name="表記" type="key" element="_sys" attribute="...
align="LEFT" sort_direction="L" />
<li name="類似する語(後)" type="following_context" el...
attribute="_following_context" width="160" align=...
sort_direction="L" />
<li name="見出し" type="argument" element="e" attribu...
align="LEFT" sort_direction="L" sort_order="1" />
<li name="概念パス" type="argument" element="c" attri...
width="80" align="LEFT" sort_direction="L" sort_o...
<li name="分類番号" type="argument" element="c" attri...
width="80" align="LEFT" sort_direction="L" />
<li name="行番号" type="argument" element="s" attribu...
align="LEFT" sort_direction="L" />
<li name="行内番号" type="argument" element="l" attri...
width="80" align="LEFT" sort_direction="L" />
</field_setting>
***length_context_kwic 要素 [#v72242d7]
KWIC の文脈長を定義
-@value: 文脈長(文字)
-例
<length_context_kwic value="10" />
***length_context_search 要素 [#ma8cc1da]
正規表現検索時の照合文字列長の定義
-@value: 文脈長(文字)
-例
<length_context_search value="10" />
*** preceding_context_constraint 要素 [#c3ed247d]
前文脈の制約値を定義。この値は,前文脈欄の history 機能...
-@value: 制約値
-例
<preceding_context_constraint
value="[^0-9ァ-ヴーa-zA-Z./・:][^0-9ァ-ヴー...
*** following_context_constraint 要素 [#e5e96051]
後文脈の制約値を定義。この値は,後文脈欄の history 機能...
-@value: 制約値
-例
<following_context_constraint
value="^[^0-9ァ-ヴーa-zA-Z\s]?[^0-9ァ-ヴーa-z...
**GUI 関連 [#h02e1e44]
***fontsize 要素 [#nf0aeb7c]
GUI のフォントサイズの定義
-@value: 7 〜 18 (pt)
-例
<fontsize value="14" />
*** isIndexingEnable 要素 [#pbc9cf50]
メニュー項目 ''[ツール]→[インデックス生成]'' を表示する...
-@value
--true
--false (default)
-例
<isIndexingEnable value="true" />
*** isGenerateCorpusFileEnable 要素(&color(red){ver.1.5で...
メニュー項目 ''[ツール]→[コーパスファイル生成]'' を表示...
-@value
--true
--false (default)
-例
<isGenerateCorpusFileEnable value="false" />
**閲覧関連 [#w453b036]
***browsers 要素 [#i45d9c2f]
閲覧用の WWW ブラウザの定義(1.7から .himawari_sys_confi...
-@temp_file: ブラウズ時のテンポラリファイル
--@label: [ツール]→[閲覧]中の項目文字列
-li (空要素)
--@name: ブラウザ名
--@path: ブラウザの実行プログラムへのパス
--- パスに "Program Files" を含み,起動に失敗した場合,"P...
--- [[default_browser]]の場合は,OSの...
--@option: ブラウザ実行時のオプション
--@os: 対応するOS名
--- Windows
--- Mac
--- Linux
--%%@omit_scheme%% ... &color(red){廃止};
---true ... isBrowsed が true の要素閲覧時の URL に対して...
---true 以外 ... スキームを付ける。
-例
<browsers temp_file="__searched_tmp.xml" label="記事">
<li name="Microsoft Internet Explorer"
path="c://progra~1/intern~1/iexplore" />
<li name="Mozilla" path="mozilla" />
</browsers>
***xsl_files 要素 [#pe6d89a2]
閲覧用の XSL ファイルに関する定義
-@root_path: XSL ファイルを格納しているディレクトリのルー...
-@temp_dir: XSL ファイルを格納しているディレクトリのルー...
-li (空要素)
--@name: XSL ファイル名
--@label:
-例
<xsl_files root_path="xslt">
<li label="横書き・段落表示" name="zassiHP.xsl" />
<li label="横書き・行番号表示" name="zassiHL.xsl" />
<li label="縦書き・段落表示" name="zassiVP.xsl" />
<li label="縦書き・行番号表示" name="zassiVL.xsl" />
</file_xsl>
**外部データベース関連 [#o81ee2f0]
***external_tools 要素 (&color(red){since ver.1.6};)[#l99...
外部ツールへのアクセス方法の定義。後述の[[access_comman...
- li (空要素)
-- @field: 実行プログラムの起動用フィールド。検索結果ウ...
-- @path: 実行プログラム。[[]]で囲う。セ...
--- VLC
--- FishWatchr
--- Firefox
--- Chrome
--- Safari (macOSのみ)
--- Edge (Windowsのみ)
--- soundplayer ... 第1引数: サウンドファイル,第2引数:...
--- xdb1, xdb2 ... 第1引数: DB検索キー,第2引数: 結果表...
--- browser ... 第一引数: URL
-- @argument: 実行プログラムの引数
---(())で囲われている場合は,検索結果中の...
--- @field が指定されておらず,@argument の値がフィールド...
--- 内部コマンドでない場合,@argument中の引数が複数ある場...
--- {{PWD}}は『ひまわり』実行ファイルのパスに置き換えられ...
-- @name: 設定名(重複しないように設定すること)。メニュ...
-- @os: 対応するOS名
--- Windows
--- Mac
--- Linux
***access_command1, access_command2 要素 (deprecated)[#ha...
外部ツールへのアクセス方法の定義(2通り定義できる)。ver....
-@label: メニュー用のラベル
-@path: 実行プログラムへのパス。ただし,[[]] で囲われてい...
--soundplayer ... 音声再生用プログラム
--xdb1, xdb2 ... 簡易データベース検索プログラム。それぞれ...
--browser ... ブラウザ。browser 要素で指定されたプログラ...
-@argument: 実行プログラムの引数
--(())で囲われている場合は,検索結果中の...
--@field が指定されておらず,@argument の値がフィールド指...
-- 内部コマンドでない場合,@argument中の引数が複数ある場...
--内部コマンドの引数
---soundplayer ... 第1引数: サウンドファイル,第2引数:...
---xdb1, xdb2 ... 第1引数: DB検索キー,第2引数: 結果表...
---browser ... 第一引数: URL
-@field: 実行プログラムの起動用フィールド。検索結果ウィン...
-例
<access_command1 label="著者情報" path="[[xdb1]]" argum...
<access_command1 label="著者DB" path="[[xdb1]]" argumen...
field="著者ID"/>
***ext_db1, ext_db2 要素 [#ic1c64ac]
[ツール]→[一覧]から参照される外部データベースの参照形態...
-@name: データベース名。この名前は,[ツール]→[一覧]で表示...
-@url: データベースファイルへの URL
-@record_name: 検索対象のレコード名
-@key: 検索対象のフィールド名
-li (空要素)
--@name: フィールド名
--@width: フィールド幅 (default: 40)
--@align: 文字揃え
--@sort_order: ソート順位 (1〜)
--@sort_type: ソートの種類
---string (default) ... 文字列としてソート
---numeric ... 数字としてソート
-例
<ext_db name="著者DB" url="authors.xml" record_name="著...
<li name="氏名" width="100" sort_order="1" />
<li name="氏名よみ" width="100" />
<li name="所属" width="80" />
<li name="分野" width="80" />
<li name="生年" width="50" align="RIGHT" />
<li name="没年" width="50" align="RIGHT" />
</ext_db>
***jitaidic 要素 [#affaa2dd]
字体辞書の定義
-@url: 字体辞書ファイルのURL
-例
<jitaidic url="jitaidic.xml" />
**一覧表示機能関連 [#ob3bf0f2]
***corpus_fields [#we9d8381]
収録しているコーパスの一覧を表示する
***unit_fields [#he1015c2]
閲覧対象要素の一覧を表示する。閲覧対象要素は,index_eix...
***user_defined_lists (&color(red){since ver.1.6, 未確定}...
指定した要素の一覧を表示する。なお,element 要素は複数...
- @label: (廃止予定)
- element 要素
-- @name: 一覧対象の要素名
-- @label: メニュー表示用のラベル
-- li 要素
--- @name: 表示用のフィールド名
--- @element: 表示する属性の要素名(ただし,一覧する要素...
--- @attribute: 表示する属性名
&br;なお,特殊な属性値として,_contents (要素内容を表示)...
--- @width: フィールド幅
--- @align: 文字揃え
--- @sort_order: ソート順位 (1〜)
--- @sort_type: ソートの種類
***stat_fields_1, stat_fields_2, stat_fields_3 [#ncda1b19]
頻度計算するのに利用するフィールドの定義
-@label: [ツール]→[統計]メニュー用のラベル
-li (空要素)
--@name: フィールド名
--@width: フィールド幅 (default: 40)
--@align: 文字揃え
--@sort_order: ソート順位 (1〜)
--@sort_type: ソートの種類
---string (default) ... 文字列としてソート
---numeric ... 数字としてソート
-例
<li name="キー" width="40" />
<li name="年" width="50" align="RIGHT" />
<li name="号" width="50" align="RIGHT" />
<li name="頻度" width="60" align="RIGHT" sort_type="...
** インポート関連 (&color(red){since 1.5β};) [#maa47222]
*** import / target_file_type 要素 [#ta759847]
インポート時のデフォルトのインポート対象ファイルを設定
- @names: 対象ファイルの種類
-- txt: テキストファイル
-- xhtml: HTML,および,XHTML ファイル
-- xml: XML ファイル
-例
<target_file_type names="txt,xhtml" />
*** import / char_normalization 要素 [#t9f65b3f]
インポート時のデフォルトの文字正規化方法を設定
- @name: 正規化方法
-- none: なし
-- user_defined: ユーザ定義
-- nfkc: NFKC (Unicode)
-例
<char_normalization name="none" />
*** import / char_convertion_table 要素 [#bcbacdb8]
インポート時のテキスト変換用テーブルの設定。import/char...
- @from: 変換前
- @to: 変換後
-例(数字の半角⇒全角変換)
<char_convertion_table from="0123456789" to="01234...
*** import / text_transformation_definition 要素 [#kd375f...
インポート時のテキスト置換用定義ファイルを指定
- @dir: 定義ファイルが存在するフォルダ
- @default: デフォルトの定義ファイル名
- 例
<text_transformation_definition dir="resources/htd" defa...
- 定義ファイルの仕様
-- 例
# 改行位置に,<br />を挿入
\n <br />\n
# ルビ(範囲指定あり)
[|](.+?)《(.+?)》 <r rt="$2">$1</r>
-- 置換規則は,先頭から順番に適用される。
-- 定義ファイルの文字コードは,UTF-8 で記述する。
-- 置換対象の文字列は正規表現で指定する。正規表現は Java ...
-- 置換対象,置換文字列はタブで区切る。置換文字列には,$1...
[[java.util.regrex.Matcher クラス>http://docs.oracle.com/...
-- 先頭が # で,タブの数が一つでない行は,コメントとみな...
*** import / xhtml_style_sheet 要素 [#b01441ae]
インポート時の XHTML ファイル用のスタイルシートを指定
- @dir: スタイルシートファイルが存在するフォルダ
- @default: デフォルトのスタイルシートファイル
- @isTidied: HTML⇒XHTML変換の可否のデフォルト値
-- true: 変換する
-- false: 変換しない
- 例
<xhtml_style_sheet dir="resources/xsl/xhtml" default="xh...
*** import / xml_style_sheet 要素 [#g64531d8]
インポート時の XML ファイル用のスタイルシートを指定
- @dir: スタイルシートファイルが存在するフォルダ
- @default: デフォルトのスタイルシートファイル
- 例
<xml_style_sheet dir="resources/xsl/xml" default="xml.xs...
*** import / as_subcorpora 要素 (&color(red){since 1.5β04...
インポート対象フォルダの直下のフォルダをサブコーパスと...
- @value:
-- false: サブコーパスとしない(default)
-- true: サブコーパスとする
- 例
<include_subcorpora value="true" />
*** import / not_now_indexing 要素 (&color(red){since 1.5...
インポート時にすぐ索引づけしないように設定する。
- @value:
-- true: すぐ索引づけしない
-- false: すぐ索引づけする(default)
- 例
<not_now_indexing value="true" />
*** import / source_files 要素 (&color(red){since 1.5β04}...
インポート時にコピーするファイルを指定する。なお,ファ...
- @corpus_dir: コーパスのソースファイルを格納したフォルダ
- @corpus_name: コーパス名
- @config_file1: 設定ファイル1(必須)
- @config_file2: 設定ファイル2(任意)
- @xslt_dir: xslt のフォルダ
- @aux_dir: 補助フォルダ
- 例
<source_files corpus_dir="test_src" corpus_name="test"
config1="config.test.xml" config2="conf...
xslt_dir="xslt" aux_dir="aux" />
** アノテーション関連 [#jd2d1ef5]
*** annotator 要素 (&color(red){since 1.5β};) [#d830111c]
アノテーションをするための外部プログラムの定義
-li 要素 ... 一つの外部プログラム
--@name: 外部プログラム名
--@os: 対象のOS
--@annotation: アノテーション名 (field_setting/li/@type="...
--@command: 外部プログラムへのパス (パス中に「Program Fil...
--@option: 外部プログラム実行時のオプション
--@encoding: 外部プログラムが入力として想定する文字コード...
-li/extract ... コーパス中でアノテーションの対象となる要素
--@name ... 要素名
--@attribute ... 要素の属性名
--@value ... 属性値
--例
<extract element="" attribute="" value="" /> ... 全要素...
<extract element="s" attribute="" value="" /> ... s 要素...
<extract element="引用" attribute="種別" value="会話" />
... 「引用」要素のうち,「種別」属...
--注意
--- @attribute を指定しない場合,@name で指定した任意の要...
--- 指定する要素は,連続しているか,改行で区切られていな...
-li/chunk ... extract 要素で指定されたコーパス中の要素を...
--@delimitor ... 単位分割するための正規表現
--@maxlength ... 1処理単位に含まれる最大文字数(これを超...
--例(最大200文字で,「。」または「?」で区切られる単位を...
<chunk delimitor="[。?]+" maxlength="200" />
-li/result_fields ... 外部プログラムの出力の形式を定義す...
--@delimitor ... 外部プログラムの出力結果のフィールド区切...
--li/@name ... フィールド名
--- li 要素の順序は,外部プログラムの出力結果のフィールド...
--- field_setting/li/@type="db" のとき,field_setting/li/...
--- "_TEXT"は,解析対象の文字列(形態素解析の場合は,出現...
--- "_unused"で始まる場合,辞書のフィールドとして追加しな...
--li/@isIndexed ... field_setting/li/@type="db" 用の索引...
--- true: 索引あり
--- false: 索引なし(default)
--li/@contextLength ... 前後要素長 (&color(red){since 1.6...
--- 当該要素の前後n個分のフィールドを検索結果に追加する
--- @name="基本形",@contextLength=2のとき,四つのフィー...
--例
<li name="_TEXT" isIndexed="true" />
<li name="読み" />
<li name="基本形" />
<li name="品詞" />
<li name="細品詞" />
<li name="活用型" />
<li name="活用形" />
**「ひまわり」資料参照関連 [#lee5061d]
***manual 要素 [#w4d7ae3a]
「ひまわり」マニュアルの URL の定義 (ver.1.7から .himaw...
-@url: 「ひまわり」マニュアルの URL (なお,URL にプロトコ...
-例
<manual url="manual/index.html" />
***hp 要素 [#v2cafd89]
「ひまわり」ホームページの URL の定義 (ver.1.7から .him...
-@url: 「ひまわり」ホームページの URL
-例
<hp url="http://mimir.corpus.rd1.local/resource/index.ph...
***package_manual 要素 [#n8256b2c]
パッケージ用のマニュアルの URL の定義 (since ver.1.7)
-@url: パッケージ用のマニュアルの URL
-例
<package_manual url="https://csd.ninjal.ac.jp/lrc/index....
***package_hp 要素 [#v57d8186]
パッケージ用のホームページの URL の定義 (since ver.1.7)
-@url: パッケージ用のホームページの URL
-例
<package_hp url="https://www2.ninjal.ac.jp/conversation/...
**全体設定 [#y86b7faf]
*** setting要素 [#w87b76db]
設定ファイル全体のルート要素
-@allowOverRide: 設定ファイル間で重複する要素の扱い (sinc...
-- true: 後から読み込まれた設定を優先する(デフォルト)。...
-- false: 後から読み込まれた設定は無視する
* 『ひまわり』の設定ファイル [#h3fd2c2b]
- config.xml
-- 『ひまわり』に付属している『青空文庫サンプル』パッケー...
- config_xxx.xml (xxxはワイルドカード)
-- configで始まる設定ファイルは,各パッケージ用の設定ファ...
- .himawari_import_config.xml
-- インポート設定用のファイル
-- インポート用のパッケージに同梱することにより,個別設定...
-- ver.1.7からは,『ひまわり』フォルダ直下の .himawari_im...
- .himawari_annotator_config.xml
-- 外部アノテータ用の設定ファイル
-- ver.1.7からは .himawari_sys_config.xmlに統合される。
- .himawari_sys_config.xml (since ver.1.7)
-- パッケージとは独立した設定で,『ひまわり』自体を設定す...
-- インポート,外部アノテータ,ブラウザの設定を含む。
--- なお,ver.1.6まで,インポート,外部アノテータの設定は...
* パッケージインストール設定ファイル [#aff0b1a0]
パッケージインストール設定ファイル(.himawari_package_in...
** パッケージインストール設定ファイルの仕様 [#v1e77d3a]
- パッケージインストール設定ファイルの名前は,.himawari_p...
- パッケージ設定ファイルの文字コードは,UTF-8 とする。た...
- パッケージ設定ファイルには,『ひまわり』フォルダにコピ...
-- コピーするファイル,および,フォルダの指定は,『ひまわ...
-- コピー先は,次の場所に限定する。
--- Corpora フォルダ内
--- resources フォルダ内
--- 『ひまわり』フォルダ直下(この場合は,『ひまわり』設定...
-- フォルダを指定した場合,フォルダに含まれるすべてのファ...
- 『ひまわり』設定ファイルがパッケージに同梱されていれば...
** パッケージインストール設定ファイルの例 [#w29cc28b]
*** 『分類語彙表』パッケージ [#r6cd10e5]
Corpora/Bunrui
config_bunrui.xml
- パッケージの Corpora/Bunrui と config_bunrui.xml が『ひ...
- パッケージインストール後,config_bunrui.xml が読み込ま...
*** 『青空文庫』パッケージ [#vddb70a6]
Corpora/Aozora
config_aozora.xml
config_aozora.db.xml
- パッケージの Corpora/Aozora, config_aozora.xml, config_...
- パッケージインストール後,config_aozora.xml が読み込ま...
ページ名: