[[全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート]] * 実行例1:作品ごとに検索文字列を集計する [#s8bd9137] ** 概要 [#o30d68b4] * 実行例1:作品ごとに検索文字列を集計する [#mae16ddb] ** 概要 [#r2e1e352] 青空文庫パッケージを使って,作品ごとに特定の文字列の出現数を集計します。実行例は,次のようなものです。各作品ごとに検索数と文字数が集計できるので,1文字あたりの出現率を計算するのに役立つでしょう。今回追加された機能は,大量の検索結果を表示することなく,計測のみを行うことができます。 #br #ref(./ex1_4.png,80%) #br ** 実行手順 [#va42cd1c] ** 実行手順 [#he330473] + 適当な文字列を指定して,検索します。これは,2.で集計対象の列を選択するためです。 #br #ref(./ex1_1.png,80%) #br + 計測したい列を選択します。今回は,「キー」「作品名」「作品ID」「文字数」を選択しました。Ctrl キーを押しながら,セルをクリックすると,追加的なセルの選択ができます。 #br #ref(./ex1_2.png,80%) #br + 「検索オプション」タブの中の「抽出」タブで,「頻度計測のみ」,表示方法「一覧」を選択します。「総計」を選択すると,ver.1.5と同様,検索総数のみ表示されます。 #br #ref(./ex1_3.png,80%) #br + 検索したい文字列を指定して,「検索」ボタンを押すと,概要のところに示した結果が得られます。今回は,検索文字列として,「私」を指定しています。 #br #ref(./ex1_5.png,80%) #br * 実行例2:文字別の出現頻度表を作る [#c865f8c3] * 実行例2:文字別の出現頻度表を作る [#w7420a35] 正規表現検索で任意の1文字を検索すれば,文字別の出現頻度表を作ることができます。検索文字列欄には,「.」(半角のピリオド)があることに注意して下さい。 #br #ref(./ex1_6.png,80%) ただし,[[『青空文庫』パッケージ(2015-10-01)>全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ]]で実行すると,かなりの時間がかかります。MacBook Air (Mid 2013, CPU:Core i7, Memory:8GB, OS:Ubuntu 14.04)で,約117分でした。結果を ただし,[[『青空文庫』パッケージ(2015-10-01)>全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ]]で実行すると,かなりの時間がかかります。MacBook Air (Mid 2013, CPU:Core i7, Memory:8GB, OS:Ubuntu 14.04)で,約117分でした。結果を次に示します。完全な結果は,&ref(./aozora20151001char.txt);をご覧ください。 |文字|頻度|h |の|6952592| |、|6092564| |い|4380816| |た|4097816| |に|4080594|