国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
[[全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート]] * 実行例1:作品ごとに検索文字列を集計する [#i2c8c170] ** 概要 [#vf7efa9b] 青空文庫パッケージを使って,作品ごとに特定の文字列の出現数を集計します。実行例は,次のようなものです。各作品ごとに検索数と文字数が集計できるので,1文字あたりの出現率を計算するのに役立つでしょう。今回追加された機能は,大量の検索結果を表示することなく,計測のみを行うことができます。 * 実行例1:作品ごとに検索文字列を集計する [#g10045a7] ** 概要 [#abc0fe2c] [[『青空文庫』パッケージ>全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ]]を使って,作品ごとに特定の文字列の出現数を集計します。実行例は,次のようなものです。各作品ごとに検索数と文字数が集計できるので,調整頻度や文字あたりの出現率を計算するのに役立つでしょう。ver.1.5までは,検索結果を表示した後に集計する必要があったので,大量の検索結果が得られる場合,集計が困難でした。今回追加された機能により,大量の検索結果を表示することなく,計測のみを行うことができます。 #br #ref(./ex1_4.png,80%) #br ** 実行手順 [#x9bc03f2] ** 実行手順 [#g3cf4cdc] + 適当な文字列を指定して,検索します。これは,2.で集計対象の列を選択するためです。 #br #ref(./ex1_1.png,80%) #br + 計測したい列を選択します。今回は,「キー」「作品名」「作品ID」「文字数」を選択しました。Ctrl キーを押しながら,セルをクリックすると,追加的なセルの選択ができます。 #br #ref(./ex1_2.png,80%) #br + 「検索オプション」タブの中の「抽出」タブで,「頻度計測のみ」,表示方法「一覧」を選択します。「総計」を選択すると,ver.1.5と同様,検索総数のみ表示されます。 #br #ref(./ex1_3.png,80%) #br + 検索したい文字列を指定して,「検索」ボタンを押すと,概要のところに示した結果が得られます。今回は,検索文字列として,「私」を指定しています。 #br #ref(./ex1_5.png,80%) #br * 実行例2:文字別の出現頻度表を作る [#rb38c26b] 正規表現検索で任意の1文字を検索すれば,文字別の出現頻度表を作ることができます。検索文字列欄には,「.」(半角のピリオド)があることに注意して下さい。 * 実行例2:文字別の出現頻度表を作る [#v52e608b] 「キー」列を選択した上で,次のように正規表現検索で任意の1文字を検索すれば,文字別の出現頻度表を作ることができます。検索文字列欄には,「.」(半角のピリオド)があることに注意して下さい。 #br #ref(./ex1_6.png,80%) ただし,青空文庫パッケージで実行すると,かなりの時間がかかります。MacBook Air (Mid 2013, CPU:Core i7, Memory:8GB, OS:Ubuntu 14.04)で,2時間程度でした。 ただし,[[『青空文庫』パッケージ(2015-10-01)>全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ]]で実行すると,かなりの時間がかかります。MacBook Air (Mid 2013, CPU:Core i7-4650U 1.70GHz, Memory:8GB, OS:Ubuntu 14.04)で,約117分でした。結果のうち,頻度の上位5文字を次に示します。完全な結果は,[[aozora20151001_char.xlsx>http://csd.ninjal.ac.jp/archives/Resources/aozora20151001_char.xlsx]]をご覧ください。 |文字|頻度|h |の|6952592| |、|6092564| |い|4380816| |た|4097816| |に|4080594|