[PukiWiki]

全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート/要素一覧機能の実行例

Top/全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート/要素一覧機能の実行例

全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート

実行例1:ルビの一覧を作成する(太陽コーパス)†

↑

概要†

 太陽コーパスには,ルビの情報がアノテーションされています。ここでは,『ひまわり』(ver.1.5)に同梱されている太陽コーパスのサンプルデータを使って,ルビの一覧を作成してみます。

↑

手順†

  1. config.xml を次のように修正します。修正した結果を fileconfig_test.xml とします。
    • <index_eix>から</index_eix> の間に次の設定を追加する。この設定は,ルビを記述している r タグ用の索引を追加するためです。
      <li name="r" middle_name="r" is_empty="false" />
    • <setting> 〜 </setting> の間に次の設定を追加する。この設定は,一覧結果の表示方法の定義です。書式は設計の段階ですが,設定ファイルリファレンスマニュアルの user_defined_lists 要素を参照して下さい。
      <user_defined_lists label="各種要素">
        <element name="r" label="ルビ">
          <li name="対象" element="r" attribute="_contents" width="200" />
          <li name="rt" element="r" attribute="rt" width="200" />
          <li name="頻度" element="_sys" attribute="_freq" width="60"
              align="RIGHT" sort_type="numeric" sort_order="1" />
        </element>
      </user_defined_lists>
  2. 『ひまわり』を起動し,config_test.xml をドラッグ&ドロップします。
  3. [ツール]⇒[インデックス生成]を実行します。このとき,「すべてを初期化」のオプションは外して下さい。
  4. [一覧]メニューの中に「ルビ」の項目が追加されているはずです。これをクリックすると,アノテーションされているルビの一覧が表示されます。
 
ex2_1_0.png
 
↑

実行例2:ルビの一覧を作成する(『青空文庫』パッケージ)†

↑

操作方法†

 青空文庫の作品にもルビがアノテーションされているので,『青空文庫』パッケージを使って,ルビの一覧を表示してみます。実際に試したい方は,後述の「設定方法」をご覧ください。

 結果を次に示します。297642個のルビタグがついていることがわかります。すべての結果は,aozora20151001_ruby.xlsxを参照して下さい(一部,文字化けが含まれていたので,削除してあります)。

 
ex2_2_1.png
 

 次に,読みのバリエーションの多いものを探してみましょう。それには,ルビづけされている文字列(「対象」列)の異なりを頻度付きの一覧表にします。『ひまわり』でこれを求めるには,「対象」列のいずれかのセルを選択し,右クリックで「統計」を実行します。なお,このとき,『「頻度」欄の値を使用して,計測しますか?』と表示されますが,異なりを求めるので,「いいえ」を選択して下さい。

 結果は,次のとおりです。「頻度」列が読みの異なりを表します。

 
ex2_2_2.png
 

 このうち,「汝」の読みにどのようなバリエーションがあるか,見てみましょう。ルビの一覧のウィンドウにに戻って,「対象」列の列名の部分を右クリックして下さい。Excel などの表計算ソフトウェアと同様,フィルタを設定できます。ここでは,[文字列指定]に正規表現「^汝$」を指定して下さい(正規表現で,最初の文字が「汝」で最後の文字が「汝」を意味する)。結果は,次のとおりです。読みは,51種類あることがわかります。

 
ex2_2_3.png
 

 なお,フィルタを解除するには,再度列名の部分を右クリックし,「フィルタ解除」してください。頻度列でソートするには,シフトキーを押しながら,列名の部分をクリックすると,降順にソートされます。単にクリックすると,昇順です。

↑

設定手順†

 設定手順を以下に示します。設定内容は説明しませんが,実行例1の太陽コーパスの場合とほとんど同じです。詳細は,下に示した設定ファイルを直接ご覧ください。

  1. 『青空文庫』パッケージを『ひまわり』にインストールして下さい。
  2. 設定ファイルfileconfig_aozora_test.xmlをダウンロードし,起動している『ひまわり』にドラッグ&ドロップします。
  3. [ツール]⇒[インデックス生成]を実行します。このとき,「すべてを初期化」のオプションは外して下さい。
  4. 以上の操作で, [一覧]メニューの中に「ルビ」の項目が追加されます。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-07-04
    • 全文検索システム『ひまわり』/履歴
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴

total:1490
today:1
yesterday:0

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-03-18 (金) 00:00:00