全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){現在,本コンテンツは,保守されてい...
#br
&br;
&color(red){&size(20){注意:};};
[[『日本語話し言葉コーパス』:https://ccd.ninjal.ac.jp/csj...
&br;
*1.はじめに [#bbc4fbe7]
-[[『日本語話し言葉コーパス』:https://ccd.ninjal.ac.jp/cs...
-今回は,人手形態素解析を行った 396 講演を検索の対象とし...
-Windows環境を想定して,説明します。なお,本資料の内容を...
*2.準備 [#l4a683f9]
-CSJ第1刷をお持ちの方は「修正版 XML 文書」DVD をご用意く...
-[[『ひまわり』(ver.1.3以降)>全文検索システム『ひまわり...
//-CSJ→ひまわり変換パッケージ([[csj2himawari_1.1.1.zip>ht...
-CSJ→ひまわり変換パッケージ([[csj2himawari_1.1.1.zip>http...
--&color(red){Windows をお使いの方は,ダウンロードしたフ...
--なお,本ページでは,[[GPL:http://www.gnu.org/licenses/g...
*3.変換手順 [#se51b7d4]
+csj2himawari_1.1.1.zip を解凍してください。解凍すると,C...
+解凍された CSJ2Himawari フォルダを『ひまわり』がインスト...
+CSJ データのコピー
-- 第1刷・第2刷をお持ちの方は,「修正版 XML 文書」DVD(第1...
-- 第3刷をお持ちの方は,まず, CSJ2Himawari フォルダにXM...
+変換の実行
--CSJ2Himawari フォルダに含まれる xml2him.bat をダブルク...
--変換が終了すると,コマンドプロンプトのウィンドウ(黒い...
--変換が終了したら,『ひまわり』フォルダの中の Corpora/CS...
--さらに,『ひまわり』フォルダに,config_csj_manual.xml ...
--コマンドプロンプトのウィンドウで,何か,キーを押すと,...
*4.索引付け [#ufd166a8]
次に,作成した corpus.xml に対して,「索引付け」を行い...
索引付けの手順は,次のとおりです。
+『ひまわり』が起動していることを確認してください。
+ [ファイル]→[新規] で,『ひまわり』フォルダ中にある conf...
+ [ツール]→[インデックス生成]を実行してください。この処理...
+「インデックス生成が終了しました。」と表示されれば,索引...
&br;なお,なんらかの理由で,インデックス生成を再度行うと...
以上で,検索用データ作成は終了です。CSJ2Himawari フォル...
*5.使い方 [#g12e5585]
ここでは,『日本語話し言葉コーパス』サンプルデータに固...
-「[[形態論情報の概要:https://ccd.ninjal.ac.jp/csj/manu-f...
-「[[短単位・長単位データマニュアル:https://ccd.ninjal.ac...
-「[[節単位認定:https://ccd.ninjal.ac.jp/csj/manu-f/claus...
-「[[転記テキスト:https://ccd.ninjal.ac.jp/csj/manu-f/tra...
**5.1『日本語話し言葉コーパス』サンプルデータを検索対象に...
インストールしたデータを検索対象とするには,『ひまわり...
**5.2 検索対象の詳細 [#ree5188d]
次の項目を対象として,検索することができます。利用者マ...
-全文:&br;
形態論情報を考慮せずに,全文検索します。なお,検索結果と...
-短単位(要素単位):
--短単位のレベルで検索します。
--例えば,上記の「全文」を選択し,「国語」を検索すると,...
-品詞(属性):&br;
品詞をキーとして検索します。文字列の照合には,正規表現を...
-代表形(属性):&br;
代表形をキーとして検索します。文字列の照合には,正規表現...
-節境界(属性):&br;
節境界情報をキーとして検索します。文字列の照合には,正規...
**5.3 転記テキストの閲覧 [#ga9b8777]
検索結果をダブルクリックすると,当該の検索文字列を含ん...
-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は,赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると,下の図のように...
-長単位の区切り(|)にマウスカーソルを合わせると,長単位の...
-節境界($)にマウスカーソルを合わせると,節境界の情報が表...
#br
#ref(./csj_manual_sample_browse.png)
終了行:
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){現在,本コンテンツは,保守されてい...
#br
&br;
&color(red){&size(20){注意:};};
[[『日本語話し言葉コーパス』:https://ccd.ninjal.ac.jp/csj...
&br;
*1.はじめに [#bbc4fbe7]
-[[『日本語話し言葉コーパス』:https://ccd.ninjal.ac.jp/cs...
-今回は,人手形態素解析を行った 396 講演を検索の対象とし...
-Windows環境を想定して,説明します。なお,本資料の内容を...
*2.準備 [#l4a683f9]
-CSJ第1刷をお持ちの方は「修正版 XML 文書」DVD をご用意く...
-[[『ひまわり』(ver.1.3以降)>全文検索システム『ひまわり...
//-CSJ→ひまわり変換パッケージ([[csj2himawari_1.1.1.zip>ht...
-CSJ→ひまわり変換パッケージ([[csj2himawari_1.1.1.zip>http...
--&color(red){Windows をお使いの方は,ダウンロードしたフ...
--なお,本ページでは,[[GPL:http://www.gnu.org/licenses/g...
*3.変換手順 [#se51b7d4]
+csj2himawari_1.1.1.zip を解凍してください。解凍すると,C...
+解凍された CSJ2Himawari フォルダを『ひまわり』がインスト...
+CSJ データのコピー
-- 第1刷・第2刷をお持ちの方は,「修正版 XML 文書」DVD(第1...
-- 第3刷をお持ちの方は,まず, CSJ2Himawari フォルダにXM...
+変換の実行
--CSJ2Himawari フォルダに含まれる xml2him.bat をダブルク...
--変換が終了すると,コマンドプロンプトのウィンドウ(黒い...
--変換が終了したら,『ひまわり』フォルダの中の Corpora/CS...
--さらに,『ひまわり』フォルダに,config_csj_manual.xml ...
--コマンドプロンプトのウィンドウで,何か,キーを押すと,...
*4.索引付け [#ufd166a8]
次に,作成した corpus.xml に対して,「索引付け」を行い...
索引付けの手順は,次のとおりです。
+『ひまわり』が起動していることを確認してください。
+ [ファイル]→[新規] で,『ひまわり』フォルダ中にある conf...
+ [ツール]→[インデックス生成]を実行してください。この処理...
+「インデックス生成が終了しました。」と表示されれば,索引...
&br;なお,なんらかの理由で,インデックス生成を再度行うと...
以上で,検索用データ作成は終了です。CSJ2Himawari フォル...
*5.使い方 [#g12e5585]
ここでは,『日本語話し言葉コーパス』サンプルデータに固...
-「[[形態論情報の概要:https://ccd.ninjal.ac.jp/csj/manu-f...
-「[[短単位・長単位データマニュアル:https://ccd.ninjal.ac...
-「[[節単位認定:https://ccd.ninjal.ac.jp/csj/manu-f/claus...
-「[[転記テキスト:https://ccd.ninjal.ac.jp/csj/manu-f/tra...
**5.1『日本語話し言葉コーパス』サンプルデータを検索対象に...
インストールしたデータを検索対象とするには,『ひまわり...
**5.2 検索対象の詳細 [#ree5188d]
次の項目を対象として,検索することができます。利用者マ...
-全文:&br;
形態論情報を考慮せずに,全文検索します。なお,検索結果と...
-短単位(要素単位):
--短単位のレベルで検索します。
--例えば,上記の「全文」を選択し,「国語」を検索すると,...
-品詞(属性):&br;
品詞をキーとして検索します。文字列の照合には,正規表現を...
-代表形(属性):&br;
代表形をキーとして検索します。文字列の照合には,正規表現...
-節境界(属性):&br;
節境界情報をキーとして検索します。文字列の照合には,正規...
**5.3 転記テキストの閲覧 [#ga9b8777]
検索結果をダブルクリックすると,当該の検索文字列を含ん...
-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は,赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると,下の図のように...
-長単位の区切り(|)にマウスカーソルを合わせると,長単位の...
-節境界($)にマウスカーソルを合わせると,節境界の情報が表...
#br
#ref(./csj_manual_sample_browse.png)
ページ名: