[PukiWiki]

全文検索システム『ひまわり』/利用者マニュアル/1_6/5.検索結果を集計する の履歴の現在との差分(No.19)


  • 履歴一覧
  • 差分 を表示
  • ソース を表示
  • 履歴 を表示
  • 全文検索システム『ひまわり』/利用者マニュアル/1_6/5.検索結果を集計する へ行く。
    • 1 (2018-06-27 (水) 15:57:25)
    • 2 (2018-06-27 (水) 16:11:33)
    • 3 (2018-06-27 (水) 17:21:39)
    • 4 (2018-06-27 (水) 17:29:19)
    • 5 (2018-06-27 (水) 18:24:48)
    • 6 (2018-07-11 (水) 10:44:09)
    • 7 (2018-07-11 (水) 12:44:53)
    • 8 (2018-07-12 (木) 18:05:26)
    • 9 (2018-07-12 (木) 18:21:26)
    • 10 (2018-07-13 (金) 11:14:39)
    • 11 (2018-07-13 (金) 11:47:47)
    • 12 (2018-07-13 (金) 12:37:49)
    • 13 (2018-07-13 (金) 12:39:36)
    • 14 (2018-07-13 (金) 13:52:15)
    • 15 (2018-07-13 (金) 14:00:51)
    • 16 (2018-07-13 (金) 14:08:37)
    • 17 (2018-07-13 (金) 14:18:55)
    • 18 (2018-07-13 (金) 14:34:34)
    • 19 (2018-07-13 (金) 14:35:57)
    • 20 (2018-07-13 (金) 14:39:45)
    • 21 (2018-07-13 (金) 14:42:05)
    • 22 (2018-07-13 (金) 14:42:51)
    • 23 (2018-07-13 (金) 15:07:49)
    • 24 (2018-07-13 (金) 15:08:27)
    • 25 (2018-07-13 (金) 15:13:33)
    • 26 (2018-07-13 (金) 15:26:25)
    • 27 (2018-07-13 (金) 15:26:42)
    • 28 (2018-07-13 (金) 15:33:29)
    • 29 (2018-07-13 (金) 15:46:25)
    • 30 (2018-07-13 (金) 15:59:19)
    • 31 (2018-07-13 (金) 16:00:40)
    • 32 (2018-07-13 (金) 16:02:48)
    • 33 (2018-07-13 (金) 16:22:11)
    • 34 (2018-07-13 (金) 16:43:18)
    • 35 (2018-07-13 (金) 16:44:26)

  • 追加された行はこの色です。
  • 削除された行はこの色です。
#navi(../)

&color(red){&size(20){本ページは作成中です。};};
//&color(red){&size(20){本ページは作成中です。};};

*5.検索結果を集計する [#y80e5ead]
** 5.1 頻度を計測する [#n15c7ad2]
 次の図は,『青空文庫』サンプルから「これ」を検索した結果です。ここでは,作品別の出現頻度を求めてみます。

 頻度の計測は,列を指定して行います。作品別の頻度を計測する場合,「タイトル」列のいずれかのセルを選択し,右クリック⇒「統計」を実行します。

#ref(./himawari_stat_freq1a.png,80%)

 計測結果は,次のようになります。

#ref(./himawari_stat_freq2a.png,80%)

 複数のセルを選択すると,選択した列の値を組にして頻度を計測することができます。次の例は,タイトルと作品を組にした場合の結果です。

#ref(./himawari_stat_freq3.png,80%)


** 5.2 集計結果を編集する [#bf567862]
 正規表現置換により,集計結果を編集します。
** 5.2 検索結果・集計結果を編集する [#bf567862]
 正規表現置換により,検索結果,集計結果を編集します。

 ここでは,年月日表示から年表示にする例を示します。使用した資料は,国会会議録パッケージです。例えば,この処理により,年ごとの集計が容易になります。

 まず,「開催年月日」列のセルを右クリックし,「置換」を実行します。

#ref(./himawari_stat_replace1.png,80%)

 置換の設定は,置換元(正規表現,「-.*」),置換先を指定します。この場合,「-」以降の文字列を削除することにより,年表示にしています。
 置換の設定は,置換元(正規表現,「-.*」),置換先を指定します。この場合,「-」以降の文字列を削除することにより,年表示にしています。なお,置換の処理は,Javaの[[String#replaceAll>https://docs.oracle.com/javase/jp/8/docs/api/java/lang/String.html#replaceAll-java.lang.String-java.lang.String-]]で行っています。後方参照についても利用可能です。

#ref(./himawari_stat_replace2.png,100%)

 結果は次のとおりです。
 結果は次のとおりです。新しいウィンドウが生成されて,置換結果が表示されます。

#ref(./himawari_stat_replace3.png,80%)

 置換の処理は,Javaの[[String#replaceAll>https://docs.oracle.com/javase/jp/8/docs/api/java/lang/String.html#replaceAll-java.lang.String-java.lang.String-]]で行っています。後方参照についても利用可能です。
 

** 5.3 集計結果を合算する [#v2b5ad87]
 セルの値が数値の場合,それらを合算する機能です。名大会話コーパスパッケージを使って,話者ごとの発話文字数を計測してみます。

 まず,各発話の文字数を「アノテーション内容の集計」機能([ツール]⇒[一覧]⇒[ユーザ入力])で求めます。一つの発話は,uタグでマークアップされています。さらに,発話者の名前を表示するため,「話者」の属性をチェックします。また,発話の文字数とその頻度も表示するように,「頻度」「長さ」もチェックします。頻度を表示するのは,同じ文字数の発話が複数存在する可能性があるからです。

#ref(./himawari_stat_accumulate1.png,80%)

 集計結果は,結果は,次のとおりです。例えば,先頭行は,話者「F001」の発話のうち,文字数が13だったものが,107回あったことを表します。

#ref(./himawari_stat_accumulate2.png,80%)
 
 最後に,合算したい列のセル(「合算:u%文字数」)を選び,[編集]⇒[合算]を実行します。

#ref(./himawari_stat_accumulate3a.png,80%)

 合算では,合算する列と「頻度」列を除くすべての列の値が同じ行の値が合算されます。上の例の場合は,「話者」列の値が同じ場合,「合算:u%文字数」列の値を合算します。合算する際は,「頻度」列の値を考慮し,先ほど例示した先頭行の場合,13×107文字として,計算されます。

** 5.4 集計結果を結合する [#v30ec872]
 この機能は,二つの集計結果を結合する機能です。

 5.1では,『青空文庫』サンプルを例として,「これ」の出現頻度を作品別に集計しましたが,作品ごとに総文字数が異なっているため,直接比較することはできません。ここでは,「結合」機能を使って,出現頻度の集計結果(表a)に,作品ごとの総文字数を追加してみます。

#ref(./himawari_stat_freq2a.png,80%)
 
 作品ごとの総文字数を求めるには,次のように,「アノテーション内容の集計」機能([ツール]⇒[一覧]⇒[ユーザ入力])で求めます。

#ref(./himawari_stat_merge1.png,80%)

 結果は,次のとおりです(表b)。

#ref(./himawari_stat_merge2.png,80%)

 表aに表bの頻度列(総単語数)を結合します。結合には,まず,表bから結合したい列とキーとなる列を指定します。

 キーとなる列とは,二つの表の値を結合する時,基準となる列です。ここでは,作品名がキーとなるので,「記事/@タイトル」列がキーとなります。結合したい列は「記事%文字数」列なので,「記事/@タイトル」「記事%文字数」列のセル(どれでもよい)を選択して,[編集]⇒[コピー(列名を含む)]を実行します。

#ref(./himawari_stat_merge3.png,80%)

 次に,結合先の表aからキーとなる列のセルを選択します。この場合は「タイトル」列なので,表aで「タイトル」列のセルを一つ選択した後,[編集]⇒[結合]を実行して下さい。結果は,次のようになります。

#ref(./himawari_stat_merge4.png,80%)



#navi(../)


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS