国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
#navi(../)
&color(red){&size(20){本ページは作成中です。};};
*6. 言語資料の分析を支援する [#j9dc7b31]
** 6.1 アノテーション内容の集計 [#ca00dd50]
*** 6.1.1 基本的な利用方法 [#se8fc263]
[ツール]⇒[一覧]⇒[ユーザ入力]で,言語資料に付与されているアノテーション内容の集計を行います。
アノテーションは,タグによって記述されているため,タグを指定して集計することになります。例えば,『青空文庫』サンプルでは,一つの作品に対して,「記事」というタグが付与されています。タグはいくつかの属性を持つことができ,「記事」には作品名や著者名の属性があります。
『青空文庫』サンプルの「記事」タグを使って,作品一覧を作成する手順は,次のとおりです。
+ [ツール]⇒[一覧]⇒[ユーザ入力]で設定用のウィンドウを起動して,下図(左)のように「第1層タグ」のところに,「記事」を設定して下さい。
+ 選択メニューの右のボタンを押すと,下図(中央)のウィンドウが現れるので,「タイトル」「著者」にチェックを入れて下さい。
+ 二つのウィンドウの「OK」ボタンを押すと,下図(右)の記事一覧表が作成されます。
#ref(./himawari_summarize_articles2.png,center,80%)
*** 「頻度」オプションと「第x層タグ」の設定 [#jad90333]
「頻度」オプションをチェックすると,一覧の各項目の出現頻度を計測することができます。下の図は,「記事」の頻度を表示したものです。『青空文庫』サンプルには,作品は重複して登録されていないため,当然,各作品の頻度は1になります。
#ref(./himawari_summarize_articles3.png,center,80%)
同様に,rタグ(ルビ)に対して,実行したのが次の図です。左図はrタグの属性rtを選択して表示したものです。rt属性には,ルビ本体が記述されているので,頻度付きのルビの一覧を作成することができます。
#ref(./himawari_summarize_articles4.png,center,80%)
一方,右図は属性を選択しないで表示したものです。この場合,rタグの総数を計測することになります。
#ref(./himawari_summarize_articles5.png,center,80%)
タグは,「第1層タグ」「第2層タグ」「第3層タグ」に複数指定することにより,タグ間の包含関係を考慮した一覧の作成が可能です。下の図は,「第1層タグ」に「記事」タグ,「第2層タグ」にrタグを指定することにより,「記事」に含まれるルビの数を計測しています。
#ref(./himawari_summarize_articles5.png,center,80%)
rt属性(ルビ本体)を選択しないで「記事」の中にあるrタグ,というタグの包含関係を次のように指定すると,作品に含まれるルビの数を数えることができます。ここでは,「第1層タグ」に「記事」タグ,「第2層タグ」にrタグを指定し,包含関係を記述しています。
三つのタグの指定があるのは,タグ間の包含関係を記述するためです。例えば,「第1層タグ」「第2層タグ」「第3層タグ」に,A「作品」「」 B, C というタグを指定した場合,
<A>
<B>
<C>
</C>
</B>
</A>
対象とするアノテーションと集計方法を指定します。
- コーパス
-- 記事
--- テキスト
---- r (ルビ)
対象とするアノテーションは,「第1層タグ」「第2層タグ」「第3層タグ」で選択します。左側のメニューでタグの一覧,右側のボタン(「選択なし」)で,タグが持つ属性一覧が表示されます。三つのタグが指定できるのは,#で示すように,タグの包含関係を指定するためです。
#ref(./himawari_summarize_annotations.png,center)
** 6.2 [#xe562673]
** 6.3 [#ycb67277]
** 6.1 [#n67813b5]
** 6.1 [#v2732273]