全文検索システム『ひまわり』/簡単な検索用データの作成方法2
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
//&color(red){&size(20){本ページは作成中です。};};
目次
#contents
*1.はじめに [#f8ad28fc]
-「青空文庫」(テキスト版)を例に,テキストファイルを『ひ...
--テキストファイルを『ひまわり』にインポートする方法
--形態素解析結果をアノテーションする方法
--作成した言語資料を利用する方法
- ただし,次のことに注意して下さい。
--『ひまわり』ver.1.5 を使用します。ver.1.3 では動作しま...
--作業環境として,Windows 環境を想定しています。
*2.用意するもの [#aa9649a3]
-[[『ひまわり』 ver.1.5 >全文検索システム『ひまわり』/ダ...
- 検索用テキストファイル(必要に応じて,各自用意)
-- 練習用の[[サンプル>http://csd.ninjal.ac.jp/archives/Hi...
//-テキストエディタ ... 以下のテキストファイルの編集がで...
//--文字コード: Unicode (UTF-16 Byte Order Mark 付き)
//--改行コード: LF
//--例: [[サクラエディタ(ver.2.x)>http://sakura-editor.so...
*3.資料のインポート手順 [#ecb6e274]
**3.1 検索用テキストファイルの収集 [#u8c87c7c]
まず,検索用のテキストファイルを集めます。ここで対象と...
+ 青空サンプル
+- 芥川竜之介
| +- 蜘蛛の糸.txt
| +- 羅生門.txt
|
+- 宮沢賢治
+- 風の又三郎.txt
+- 銀河鉄道の夜.txt
もちろん,自分でテキストファイルを収集したり,テキスト...
「青空文庫」の作品を収集する場合は,「ファイル種別」が...
#ref(./text_download.png,center,wrap,100%,テキストのダウ...
** 3.2 『ひまわり』へのインポート [#fb9449db]
上記の四つのファイルを『ひまわり』にインポートします。...
#ref(./import_menu.png,center,wrap,90%,インポートの実行);
すると,次のウィンドウが現れます。デフォルトでは,自動...
#ref(./import_target.png,center,wrap,80%,インポートの対象);
1〜2分程度でインポートは終了し,成功すれば,次のような...
#ref(./import_result.png,center,wrap,70%,インポート結果);
** 3.3 インポートした資料の確認 [#mb059f45]
それでは,用意した資料をすべて取り込めたかを確認するた...
#ref(./import_article_list2.png,center,wrap,90%,作品一覧);
** 3.4 インポートした資料の選択 [#a49dd1a2]
『ひまわり』は設定ファイルを切り替えて,検索対象の資料...
- config_(コーパス名).xml ... 全文検索機能のみを...
- config_(コーパス名).db.xml ... 人手のアノテーショ...
インポートした直後は,config_(コーパス名).xml が読み込...
#ref(./new.png,center,wrap,90%,設定ファルの読み込み);
資料をインポートした時点で,config_(コーパス名).xml の...
config_(コーパス名).db.xml の固有の機能,つまり,各種の...
* 4.形態素解析結果の取り込み [#z34eb823]
&color(red){&size(20){ver.1.6では,操作が変更になりました...
『ひまわり』ver.1.5 から,外部プログラムによるアノテー...
** 4.1 形態素解析システムのインストール [#qd0ac55f]
今回は,形態素解析システムとして,[[MeCab>http://mecab....
Windows 版の MeCab のインストールは,[[Binary package f...
Windows 版以外の OS については,ソースをコンパイルする...
#ref(./mecab_inst_encoding.png,center,wrap,90%,MeCab文字...
** 4.2 形態素解析結果の取り込みの実行 [#y9c7e323]
形態素解析結果を『ひまわり』のデータベースに取り込むに...
#ref(./execute_mecab.png,center,wrap,80%,MeCab実行);
「アノテーション完了」のメッセージが出れば,終了です。...
#ref(./finish_mecab.png,center,wrap,100%,MeCab終了);
* 5.言語資料の利用 [#rc8f59e1]
ここでは,形態素解析結果の利用を中心として,インポート...
** 5.1 形態素での検索 [#o6262222]
形態素単位での検索を行うには,「検索対象」のリストから...
#ref(./target_list.png,center,wrap,100%,検索対象);
- 基本形: 活用語の基本形で検索します。活用語のすべての語...
- 出現形: 活用語の場合,テキストに出現した語形で検索しま...
- 読み: 読みで検索します。使用する形態素解析システムや解...
** 5.2 検索結果(形態素での検索の場合) [#h65ce9cc]
下図は,基本形「です」の検索結果です。検索結果には,検...
#ref(./search_result01.png,center,wrap,80%,検索結果);
** 5.3 検索結果(文字列検索の場合) [#td049433]
5.2 では,形態素での検索でしたが,単純な文字列検索の場...
#ref(./search_result02.png,center,wrap,80%,検索結果);
「でした」は「です」+「た」の2形態素で構成されます。...
** 5.4 結果の集計 [#g6fe8bb6]
ここでは,検索文字列の周辺の形態素の分布を簡単に集計し...
#ref(./stat01.png,center,wrap,80%,検索結果);
集計対象を選択したら,右クリックしてポップアップメニュ...
#ref(./stat_result01.png,center,wrap,100%,集計結果);
//* 6.言語資料のインポートの詳細
終了行:
[[全文検索システム『ひまわり』]]
//&color(red){&size(20){本ページは作成中です。};};
目次
#contents
*1.はじめに [#f8ad28fc]
-「青空文庫」(テキスト版)を例に,テキストファイルを『ひ...
--テキストファイルを『ひまわり』にインポートする方法
--形態素解析結果をアノテーションする方法
--作成した言語資料を利用する方法
- ただし,次のことに注意して下さい。
--『ひまわり』ver.1.5 を使用します。ver.1.3 では動作しま...
--作業環境として,Windows 環境を想定しています。
*2.用意するもの [#aa9649a3]
-[[『ひまわり』 ver.1.5 >全文検索システム『ひまわり』/ダ...
- 検索用テキストファイル(必要に応じて,各自用意)
-- 練習用の[[サンプル>http://csd.ninjal.ac.jp/archives/Hi...
//-テキストエディタ ... 以下のテキストファイルの編集がで...
//--文字コード: Unicode (UTF-16 Byte Order Mark 付き)
//--改行コード: LF
//--例: [[サクラエディタ(ver.2.x)>http://sakura-editor.so...
*3.資料のインポート手順 [#ecb6e274]
**3.1 検索用テキストファイルの収集 [#u8c87c7c]
まず,検索用のテキストファイルを集めます。ここで対象と...
+ 青空サンプル
+- 芥川竜之介
| +- 蜘蛛の糸.txt
| +- 羅生門.txt
|
+- 宮沢賢治
+- 風の又三郎.txt
+- 銀河鉄道の夜.txt
もちろん,自分でテキストファイルを収集したり,テキスト...
「青空文庫」の作品を収集する場合は,「ファイル種別」が...
#ref(./text_download.png,center,wrap,100%,テキストのダウ...
** 3.2 『ひまわり』へのインポート [#fb9449db]
上記の四つのファイルを『ひまわり』にインポートします。...
#ref(./import_menu.png,center,wrap,90%,インポートの実行);
すると,次のウィンドウが現れます。デフォルトでは,自動...
#ref(./import_target.png,center,wrap,80%,インポートの対象);
1〜2分程度でインポートは終了し,成功すれば,次のような...
#ref(./import_result.png,center,wrap,70%,インポート結果);
** 3.3 インポートした資料の確認 [#mb059f45]
それでは,用意した資料をすべて取り込めたかを確認するた...
#ref(./import_article_list2.png,center,wrap,90%,作品一覧);
** 3.4 インポートした資料の選択 [#a49dd1a2]
『ひまわり』は設定ファイルを切り替えて,検索対象の資料...
- config_(コーパス名).xml ... 全文検索機能のみを...
- config_(コーパス名).db.xml ... 人手のアノテーショ...
インポートした直後は,config_(コーパス名).xml が読み込...
#ref(./new.png,center,wrap,90%,設定ファルの読み込み);
資料をインポートした時点で,config_(コーパス名).xml の...
config_(コーパス名).db.xml の固有の機能,つまり,各種の...
* 4.形態素解析結果の取り込み [#z34eb823]
&color(red){&size(20){ver.1.6では,操作が変更になりました...
『ひまわり』ver.1.5 から,外部プログラムによるアノテー...
** 4.1 形態素解析システムのインストール [#qd0ac55f]
今回は,形態素解析システムとして,[[MeCab>http://mecab....
Windows 版の MeCab のインストールは,[[Binary package f...
Windows 版以外の OS については,ソースをコンパイルする...
#ref(./mecab_inst_encoding.png,center,wrap,90%,MeCab文字...
** 4.2 形態素解析結果の取り込みの実行 [#y9c7e323]
形態素解析結果を『ひまわり』のデータベースに取り込むに...
#ref(./execute_mecab.png,center,wrap,80%,MeCab実行);
「アノテーション完了」のメッセージが出れば,終了です。...
#ref(./finish_mecab.png,center,wrap,100%,MeCab終了);
* 5.言語資料の利用 [#rc8f59e1]
ここでは,形態素解析結果の利用を中心として,インポート...
** 5.1 形態素での検索 [#o6262222]
形態素単位での検索を行うには,「検索対象」のリストから...
#ref(./target_list.png,center,wrap,100%,検索対象);
- 基本形: 活用語の基本形で検索します。活用語のすべての語...
- 出現形: 活用語の場合,テキストに出現した語形で検索しま...
- 読み: 読みで検索します。使用する形態素解析システムや解...
** 5.2 検索結果(形態素での検索の場合) [#h65ce9cc]
下図は,基本形「です」の検索結果です。検索結果には,検...
#ref(./search_result01.png,center,wrap,80%,検索結果);
** 5.3 検索結果(文字列検索の場合) [#td049433]
5.2 では,形態素での検索でしたが,単純な文字列検索の場...
#ref(./search_result02.png,center,wrap,80%,検索結果);
「でした」は「です」+「た」の2形態素で構成されます。...
** 5.4 結果の集計 [#g6fe8bb6]
ここでは,検索文字列の周辺の形態素の分布を簡単に集計し...
#ref(./stat01.png,center,wrap,80%,検索結果);
集計対象を選択したら,右クリックしてポップアップメニュ...
#ref(./stat_result01.png,center,wrap,100%,集計結果);
//* 6.言語資料のインポートの詳細
ページ名: