[[全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート]] //&size(20){&color(red){本ページは,現在構築中です。};}; * 実行例1:ルビの一覧を作成する(太陽コーパス) [#g10045a7] ** 概要 [#abc0fe2c] 太陽コーパスには,ルビの情報がアノテーションされています。ここでは,『ひまわり』(ver.1.5)に同梱されている太陽コーパスのサンプルデータを使って,ルビの一覧を作成してみます。 ** 手順 [#scfa8aa1] + config.xml を次のように修正します。修正した結果を &ref(./config_test.xml); とします。 -- <index_eix>から</index_eix> の間に次の設定を追加する。この設定は,ルビを記述している r タグ用の索引を追加するためです。 <li name="r" middle_name="r" is_empty="false" /> -- <setting> 〜 </setting> の間に次の設定を追加する。この設定は,一覧結果の表示方法の定義です。書式は設計の段階ですが,おおむね,設定ファイルリファレンスマニュアルの[[field_setting 要素>全文検索システム『ひまわり』/設定ファイルリファレンスマニュアル#xb8cadd1]]の設定と同じです。 -- <setting> 〜 </setting> の間に次の設定を追加する。この設定は,一覧結果の表示方法の定義です。書式は設計の段階ですが,設定ファイルリファレンスマニュアルの[[ user_defined_lists 要素>全文検索システム『ひまわり』/設定ファイルリファレンスマニュアル#h0dee5e2]]を参照して下さい。 <user_defined_lists label="各種要素"> <element name="r" label="ルビ"> <li name="対象" element="r" attribute="_contents" width="200" /> <li name="rt" element="r" attribute="rt" width="200" /> <li name="頻度" element="_sys" attribute="_freq" width="60" align="RIGHT" sort_type="numeric" sort_order="1" /> </element> </user_defined_lists> + 『ひまわり』を起動し,config_test.xml をドラッグ&ドロップします。 + [ツール]⇒[インデックス生成]を実行します。このとき,「すべてを初期化」のオプションは外して下さい。 + [一覧]メニューの中に「ルビ」の項目が追加されているはずです。これをクリックすると,アノテーションされているルビの一覧が表示されます。 #br #ref(./ex2_1_0.png,80%) #br * 実行例2:ルビの一覧を作成する(『青空文庫』パッケージ) [#ufd23731] ** 操作方法 [#b28c0551] 青空文庫の作品にもルビがアノテーションされているので,[[『青空文庫』パッケージ>全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ]]を使って,ルビの一覧を表示してみます。実際に試したい方は,後述の「設定方法」をご覧ください。 結果を次に示します。297642個のルビタグがついていることがわかります。すべての結果は,[[aozora20151001_ruby.xlsx>http://csd.ninjal.ac.jp/archives/Resources/aozora20151001_ruby.xlsx]]を参照して下さい(一部,文字化けが含まれていたので,削除してあります)。 #br #ref(./ex2_2_1.png,80%) #br 次に,読みのバリエーションの多いものを探してみましょう。それには,ルビづけされている文字列(「対象」列)の異なりを頻度付きの一覧表にします。『ひまわり』でこれを求めるには,「対象」列のいずれかのセルを選択し,右クリックで「統計」を実行します。なお,このとき,『「頻度」欄の値を使用して,計測しますか?』と表示されますが,異なりを求めるので,「いいえ」を選択して下さい。 結果は,次のとおりです。「頻度」列が読みの異なりを表します。 #br #ref(./ex2_2_2.png,80%) #br このうち,「汝」の読みにどのようなバリエーションがあるか,見てみましょう。ルビの一覧のウィンドウにに戻って,「対象」列の列名の部分を右クリックして下さい。Excel などの表計算ソフトウェアと同様,フィルタを設定できます。ここでは,[文字列指定]に正規表現「^汝$」を指定して下さい(正規表現で,最初の文字が「汝」で最後の文字が「汝」を意味する)。結果は,次のとおりです。読みは,51種類あることがわかります。 #br #ref(./ex2_2_3.png,80%) #br なお,フィルタを解除するには,再度列名の部分を右クリックし,「フィルタ解除」してください。頻度列でソートするには,シフトキーを押しながら,列名の部分をクリックすると,降順にソートされます。単にクリックすると,昇順です。 ** 設定手順 [#vf7d8b81] 設定手順を以下に示します。設定内容は説明しませんが,実行例1の太陽コーパスの場合とほとんど同じです。詳細は,下に示した設定ファイルを直接ご覧ください。 + [[『青空文庫』パッケージ>全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ]]を『ひまわり』にインストールして下さい。 + 設定ファイル&ref(./config_aozora_test.xml);をダウンロードし,起動している『ひまわり』にドラッグ&ドロップします。 + [ツール]⇒[インデックス生成]を実行します。このとき,「すべてを初期化」のオプションは外して下さい。 + 以上の操作で, [一覧]メニューの中に「ルビ」の項目が追加されます。