全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート
本ページは,現在構築中です。
太陽コーパスには,ルビの情報がアノテーションされています。ここでは,『ひまわり』(ver.1.5)に同梱されている太陽コーパスのサンプルデータを使って,ルビの一覧を作成してみます。
<li name="r" middle_name="r" is_empty="false" />
<user_defined_lists label="各種要素"> <element name="r" label="ルビ"> <li name="対象" element="r" attribute="_contents" width="200" /> <li name="rt" element="r" attribute="rt" width="200" /> <li name="頻度" element="_sys" attribute="_freq" width="60" align="RIGHT" sort_type="numeric" sort_order="1" /> </element> </user_defined_lists>
青空文庫の作品にもルビがアノテーションされているので,『青空文庫』パッケージを使って,ルビの一覧を表示してみます。実際に試したい方は,後述の「設定方法」をご覧ください。
結果を次に示します。すべての結果は,&ref(): File not found: "aozora20151001ruby.xlsx" at page "全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート/要素一覧機能の実行例";を参照して下さい。
次に,読みのバリエーションの多いものを探してみましょう。それには,ルビづけされている文字列(「対象」列)の異なりを頻度付きの一覧表にします。『ひまわり』でこれを求めるには,「対象」列のいずれかのセルを選択し,右クリックで「統計」を実行します。
結果は,次のとおりです。
このうち,「汝」の読みにどのようなバリエーションがあるか,見てみましょう。ルビの一覧のウィンドウにに戻って,「対象」列の列名の部分を右クリックして下さい。Excel などの表計算ソフトウェアと同様,フィルタを正規表現で設定できます。ここでは,[文字列指定]で,「^汝$」としてください(正規表現で,最初の文字が「汝」で最後の文字が「汝」を意味する)。結果は,次のとおりです。
なお,フィルタを解除するには,再度列名の部分を右クリックし,「フィルタ解除」してください。頻度列でソートするには,シフトキーを押しながら,列名の部分をクリックすると,降順にソートされます。単にクリックすると,昇順です。
青空文庫パッケージの場合もルビの索引と一覧表示用の設定を追加します。