全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート
太陽コーパスには,ルビの情報がアノテーションされています。ここでは,『ひまわり』(ver.1.5)に同梱されている太陽コーパスのサンプルデータを使って,ルビの一覧を作成してみます。
<li name="r" middle_name="r" is_empty="false" />
<user_defined_lists label="各種要素"> <element name="r" label="ルビ"> <li name="対象" element="r" attribute="_contents" width="200" /> <li name="rt" element="r" attribute="rt" width="200" /> <li name="頻度" element="_sys" attribute="_freq" width="60" align="RIGHT" sort_type="numeric" sort_order="1" /> </element> </user_defined_lists>
青空文庫の作品にもルビがアノテーションされているので,『青空文庫』パッケージを使って,ルビの一覧を表示してみます。実際に試したい方は,後述の「設定方法」をご覧ください。
結果を次に示します。297642個のルビタグがついていることがわかります。すべての結果は,aozora20151001_ruby.xlsxを参照して下さい(一部,文字化けが含まれていたので,削除してあります)。
次に,読みのバリエーションの多いものを探してみましょう。それには,ルビづけされている文字列(「対象」列)の異なりを頻度付きの一覧表にします。『ひまわり』でこれを求めるには,「対象」列のいずれかのセルを選択し,右クリックで「統計」を実行します。なお,このとき,『「頻度」欄の値を使用して,計測しますか?』と表示されますが,異なりを求めるので,「いいえ」を選択して下さい。
結果は,次のとおりです。「頻度」列が読みの異なりを表します。
このうち,「汝」の読みにどのようなバリエーションがあるか,見てみましょう。ルビの一覧のウィンドウにに戻って,「対象」列の列名の部分を右クリックして下さい。Excel などの表計算ソフトウェアと同様,フィルタを設定できます。ここでは,[文字列指定]に正規表現「^汝$」を指定して下さい(正規表現で,最初の文字が「汝」で最後の文字が「汝」を意味する)。結果は,次のとおりです。読みは,51種類あることがわかります。
なお,フィルタを解除するには,再度列名の部分を右クリックし,「フィルタ解除」してください。頻度列でソートするには,シフトキーを押しながら,列名の部分をクリックすると,降順にソートされます。単にクリックすると,昇順です。
設定手順を以下に示します。設定内容は説明しませんが,実行例1の太陽コーパスの場合とほとんど同じです。詳細は,下に示した設定ファイルを直接ご覧ください。