全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート
青空文庫パッケージを使って,作品ごとに特定の文字列の出現数を集計します。実行例は,次のようなものです。各作品ごとに検索数と文字数が集計できるので,1文字あたりの出現率を計算するのに役立つでしょう。今回追加された機能は,大量の検索結果を表示することなく,計測のみを行うことができます。
正規表現検索で任意の1文字を検索すれば,文字別の出現頻度表を作ることができます。検索文字列欄には,「.」(半角のピリオド)があることに注意して下さい。
ただし,『青空文庫』パッケージ(2015-10-01)で実行すると,かなりの時間がかかります。MacBook Air (Mid 2013, CPU:Core i7, Memory:8GB, OS:Ubuntu 14.04)で,約117分でした。結果を
文字 | 頻度 |
の | 6952592 |
、 | 6092564 |
い | 4380816 |
た | 4097816 |
に | 4080594 |