#author("2018-10-29T11:35:53+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] *1.ver.1.6 の開発方針 [#c9e9842a] ver.1.6 では,教育現場で言語資料作成の実習や分析を行うことを考慮して,次の方針を掲げて,開発を行いました。 - 資料の分析を考慮した機能の拡充 - %%設定ファイル作成の GUI 化%% (次バージョンへ持ち越し) *2.追加された機能 [#rd7062bd] ** 分析支援機能 [#eef9a7ac] - [[検索結果の集計機能の強化>全文検索システム『ひまわり』/利用者マニュアル/1_6/5.検索結果を集計する]] - [[アノテーション内容の集計機能の追加>全文検索システム『ひまわり』/利用者マニュアル/1_6/6.アノテーション内容を集計する]] - [[計測のみの検索機能の拡充>全文検索システム『ひまわり』/利用者マニュアル/1_6/4.詳細な検索を行う#s33e4789]] ** 外部アノテーション関連 (1.6.a20170120) [#xb10b3e0] - 外部アノテーションした結果を閲覧できるようになりました。 -- これにより,例えば,小説の作品ごとに全形態素解析結果を閲覧できます。 -- [[実行例:形態素解析結果の閲覧>./実行例20170120a#o2b16ca4]] - 外部アノテーションをインポート機能と統合しました。 -- これにより,インポートすれば,自動的に形態素解析結果などの外部アノテーションを行えるようになりました。 -- [[実行例:外部アノテーションの実行>./実行例20170120a#n7d144cf]] ** 外部アノテーション関連 [#vbf9bb45] - 外部アノテーション用データベースの改善 -- 規定のラベルに基づいた大量のアノテーション(例:形態素解析結果)を行う場合,『ひまわり』では,コーパス自体にタグとして記述する方法以外に,外部のデータベースに記述する方法を用意しています。従来は,データベースとして,リレーショナル・データベースを利用していましたが,今回新たに独自形式のデータベースを実装しました。これにより,次の点が改善されます。 -- 検索速度の向上(例:青空文庫パッケージの形態素解析結果追加パッケージの場合,1.5倍から3倍程度) -- データサイズの削減(例:青空文庫パッケージの形態素解析結果追加パッケージの場合,約6GB必要だったが,約1.6GBになった) -- 運用の柔軟性(例:サブコーパスごとにデータベースを作れるようになった) - [[外部アノテーション結果の表示>全文検索システム『ひまわり』/利用者マニュアル/1_6/6.アノテーション内容を集計する#oe845d84]] ** 一覧内容の指定 (1.6.a20170120) [#h89a966a] - これまで,記事やコーパスの情報の一覧は,パッケージ作成者が用意していましたが,ユーザが一覧内容を部分的に指定できるようになりました。 -- [[実行例:一覧内容の指定>./実行例20170120a#sb9a1297]] ** フォントサイズの変更 (1.6.a20170120) [#r45b0e87] - フォントサイズの変更機能を拡張しました。 -- 『ひまわり』上でマウス・ホイールを操作することにより,フォントサイズを変更することができます。 ** インターフェイス関連 [#n8c81d94] - [[コーパス選択方法の改善>全文検索システム『ひまわり』/利用者マニュアル/1_6/3.検索してみよう#kbc7241f]] - フォントサイズ変更機能の拡張 -- 『ひまわり』上でマウス・ホイール(Ctrl キーを押しながら;Macの場合は Shift + Ctrl)を操作することにより,フォントサイズを変更することができます。 -- フォントサイズの上限値を大きくしました。 -- フォントサイズを変更しても,きちんと文字を表示できるようになりました。 ** 外部アノテーション用データベースの改善 (1.6.a20160516) [#z6ae9c5c] - 規定のラベルに基づいた大量のアノテーション(例:形態素解析結果)を行う場合,『ひまわり』では,コーパス自体にアノテーションを記述するのではなく,外部のデータベースに記述する方法を用意しています。従来は,データベースとして,リレーショナル・データベースを利用していましたが,今回新たに独自形式のデータベースを実装しました。これにより,次の点が改善されます。 -- 検索速度の向上(例:青空文庫パッケージの形態素解析結果追加パッケージの場合,1.5倍から3倍程度) -- データサイズの削減(例:青空文庫パッケージの形態素解析結果追加パッケージの場合,約6GB必要だったが,約1.6GBになった) -- 運用の柔軟性(例:サブコーパスごとにデータベースを作れるようになった) #br -- [[実行例:テスト用言語資料>./テスト用言語資料]] //#slideshare(//www.slideshare.net/slideshow/embed_code/key/N4lJIx1cpJSzgq,595,485) //- 全文検索システム『ひまわり』講習会資料(2017-05-08)([[slideshare.net>https://www.slideshare.net/himawarininjal/20170508-75768149]]) //- ver.1.6で追加された機能の一部を紹介しています。 //** コーパス選択方法の改善(1.6b02) [#gd64e5ac] //- 従来版では,コーパスの選択は,設定ファイル(config_*.xml)を選択することによって行ってきましたが,コーパス一覧から選択できるようになりました。 //- [ファイル]⇒[コーパス選択]から利用できます。 ** 計測のみの検索機能の拡充 (1.6.a20160416) [#r325783a] - 検索結果の指定した列の組ごとに頻度を計測し,一覧する -- [[実行例:検索文字列を作品ごとに計測する>./計測機能の実行例]] //- 従来の版では,大量の検索結果が予想される時のために,検索結果を表示しないで,検索総数だけを計測する機能がありました。 //- 新しい版では,従来の機能に加え,検索結果の指定した列の組ごとに頻度を計測し,一覧できるようにしました。 //- この機能を使うことにより, // ** 一覧内容の指定 [#h89a966a] // *** (1.6.a20170316) [#w398d96b] // - 一覧で文脈オプションを追加しました。これにより,単語などのnグラムを作成することができるようになりました。 // -- [[実行例:文脈オプション>./実行例20170120a#a969dded]] // *** (1.6.a20170120) [#tcd69adb] // - これまで,記事やコーパスの情報の一覧は,パッケージ作成者が用意していましたが,ユーザが一覧内容を部分的に指定できるようになりました。 // -- [[実行例:一覧内容の指定>./実行例20170120a#sb9a1297]] // ** 検索結果・一覧結果の編集 [#q6fbcad8] // *** (1.6.a20170316) [#te33ef1a] // - 一覧結果の数値を合算できるようになりました。 // -- [[合算例(話者ごとの発話文字数)>./実行例20170120b#c9791dc8]] // - 別の一覧結果の列を結合できるようになりました。 // -- [[結合例(調整頻度の計算)>./実行例20170120b#pd71f527]] ** アノテーションされた情報の集計 (1.6.a20160416) [#k1ab97d7] - 付与されているアノテーション内容の一覧を作成する -- [[実行例:ルビの一覧を作成する>./要素一覧機能の実行例]] // *** (1.6.a20170120) [#xf1cb642] // - 検索結果・一覧結果に対して,置換を行えるようになりました。 // -- [[置換例(国会の開催年月日⇒開催年)>./実行例20170120b#nb1f6eb5]] //** フォントサイズの変更 (1.6.a20170120) [#r45b0e87] //- フォントサイズの変更機能を拡張しました。 //-- 『ひまわり』上でマウス・ホイール(Ctrl キーを押しながら;Macの場合は Shift + Ctrl)を操作することにより,フォントサイズを変更することができます。 //-- フォントサイズの上限値を大きくしました。 //-- フォントサイズを変更しても,きちんと文字を表示できるようになりました。 //** 計測のみの検索機能の拡充 (1.6.a20160416) [#r325783a] //- 検索結果の指定した列の組ごとに頻度を計測し,一覧する //-- [[実行例:検索文字列を作品ごとに計測する>./計測機能の実行例]] //- 従来の版では,大量の検索結果が予想される時のために,検索結果を表示しないで,検索総数だけを計測する機能がありました。 //- 新しい版では,従来の機能に加え,検索結果の指定した列の組ごとに頻度を計測し,一覧できるようにしました。 //- この機能を使うことにより, ** その他 [#z2706940] - 「統計」機能において,選択した列に「頻度」列があった場合,その値を頻度計測時に加算するようにした - メモ機能用のメニューを必要なときのみ表示するようにした - [編集]⇒[検索]のキーを保存するようにした - フィルタ機能の高速化 - 検索速度の高速化 - macOS専用パッケージの新設 - アイコンの高解像度化 ⌣ #ref(./himawari_chan_512.png,40%) ** 次期スナップショット追加予定 [#m614b649] //** 次期スナップショット追加予定 [#m614b649] //- RDBを使用しないで,Standoff タイプのアノテーションを検索する