全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法2
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){現在,本コンテンツは,保守されてい...
#br
&br;
&color(red){&size(20){注意:};};
[[『日本語話し言葉コーパス』:http://www.ninjal.ac.jp/corp...
#br
*1.はじめに [#bbc4fbe7]
-[[『日本語話し言葉コーパス』:http://www.ninjal.ac.jp/cor...
-メモリ上の問題から,&color(red){64bit版の OS}; の利用を...
-公開中の[[「『日本語話し言葉コーパス』を『ひまわり』で利...
-- CSJの全データが対象となります。
-- (上記の制限はありますが)Java が動作する OS 上で動作...
-- 正規表現検索の設定を追加しました。
*2.準備 [#l4a683f9]
-[[『ひまわり』ver.1.5(β04以降)>全文検索システム『ひまわ...
-次のシステム要件を満たすか確認して下さい。
-- 64bit版OSを使用していること
--- (microsoft.com) [[自分のパソコンが 32 ビット版か 64 ...
--- (apple.com) [[Intel ベースの Mac のプロセッサが 32 ビ...
-- 64bit版の Java がインストールされていること
+++ 『ひまわり』フォルダの中の himawari.jar をダブルクリ...
+++ [ヘルプ]→[バージョン情報]の最終行に「64-Bit」という記...
-- メモリが4GB以上搭載されていること
-CSJ第1刷をお持ちの方は「修正版 XML 文書」DVD をご用意く...
-CSJ→ひまわり変換パッケージ([[csj2himawari_2.0.zip>http:/...
--&color(red){Windows をお使いの方は,ダウンロードしたフ...
//--なお,本ページでは,[[GPL:http://www.gnu.org/licenses...
*3.ファイルのインポート [#se51b7d4]
『日本語話し言葉コーパス』のXMLデータを『ひまわり』にイ...
+[[csj2himawari_2.0.zip>http://csd.ninjal.ac.jp/archives/...
+CSJ データのコピー
-- 第1刷・第2刷をお持ちの方は,「修正版 XML 文書」DVD(第1...
-- 第3刷をお持ちの方は,DVDセットの2枚目のXMLフォルダーの...
+配置コマンドの実行
--複数のサブコーパスに分割するために,コピーしたXMLファイ...
--- 形態論情報の解析方法(人手/自動)
--- 音声タイプ (例:学会講演,模擬講演など)
--- 音声タイプの詳細情報(例:学会の別,模擬講演テーマの別...
-- 次のファイルをダブルクリックして下さい。
setup.bat ... Windows の場合
setup.command ... MacOS X の場合
setup.sh ... その他の場合(bash を利用)
-- コマンドが正常に終了すると,CSJ2Himawari/CSJ フォルダ...
--- Manual ... 人手形態論情報解析分用のフォルダ
--- AutomaticA01〜A11 ... 自動形態論情報解析分のフォルダ(...
--- AutomaticD, M, R ... 自動形態論情報解析分のフォルダ(...
--- AutomaticS00〜S11 ... 自動形態論情報解析分のフォルダ(...
+ インポートの実行
++ 『ひまわり』を起動してください。
--- 『ひまわり』がインストールされているフォルダに移動し...
java -jar himawari.jar
--- コマンドラインからの実行方法がわからない場合は,CSJ2H...
himawari_exec.bat ... Windows の場合
himawari_exec.command ... MacOS X の場合
himawari_exec.sh ... その他の場合(bash を利用)
++ [ファイル]→[インポート]を実行すると,ウィンドウが現れ...
++ [インポート]ボタンを押してください。1〜2時間程度で変...
以上で,データのインポートは終了です。『ひまわり』での...
*4.使い方 [#g12e5585]
ここでは,『日本語話し言葉コーパス』データに固有の事柄...
-「[[形態論情報の概要>http://www.ninjal.ac.jp/corpus_cent...
-「[[短単位・長単位データマニュアル>http://www.ninjal.ac....
-「[[節単位認定>http://www.ninjal.ac.jp/corpus_center/csj...
-「[[転記テキスト>http://www.ninjal.ac.jp/corpus_center/c...
- [[『日本語話し言葉コーパス』の概観>http://www.ninjal.ac...
-「[[音声収録作業の概要>http://www.ninjal.ac.jp/corpus_ce...
**4.1『日本語話し言葉コーパス』を検索対象にするには [#ke9...
『日本語話し言葉コーパス』用の設定ファイルは,config_cs...
**4.2 サブコーパスの選択 [#mbff38f8]
[[コーパス選択機能>全文検索システム『ひまわり』/利用者...
**4.3 検索対象の詳細 [#ree5188d]
次の項目を対象として,検索することができます。利用者マ...
-全文:&br;
形態論情報を考慮せずに,全文検索します。なお,検索結果と...
-全文(正規表現):&br;
形態論情報を考慮せずに,全文検索します。「全文」との相違...
-短単位(要素単位):
--短単位のレベルで検索します。
--例えば,上記の「全文」を選択し,「国語」を検索すると,...
-品詞(属性):&br;
品詞をキーとして検索します。文字列の照合には,正規表現を...
-代表形(属性):&br;
代表形をキーとして検索します。文字列の照合には,正規表現...
-節境界(属性):&br;
節境界情報をキーとして検索します。文字列の照合には,正規...
**4.4 転記テキストの閲覧 [#ga9b8777]
検索結果をダブルクリックすると,当該の検索文字列を含ん...
-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は,赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると,下の図のように...
-長単位の区切り(|)にマウスカーソルを合わせると,長単位の...
-節境界($)にマウスカーソルを合わせると,節境界の情報が表...
#br
#ref(./csj_manual_sample_browse.png)
#br
終了行:
[[全文検索システム『ひまわり』]]
#br
&color(red){&size(20){現在,本コンテンツは,保守されてい...
#br
&br;
&color(red){&size(20){注意:};};
[[『日本語話し言葉コーパス』:http://www.ninjal.ac.jp/corp...
#br
*1.はじめに [#bbc4fbe7]
-[[『日本語話し言葉コーパス』:http://www.ninjal.ac.jp/cor...
-メモリ上の問題から,&color(red){64bit版の OS}; の利用を...
-公開中の[[「『日本語話し言葉コーパス』を『ひまわり』で利...
-- CSJの全データが対象となります。
-- (上記の制限はありますが)Java が動作する OS 上で動作...
-- 正規表現検索の設定を追加しました。
*2.準備 [#l4a683f9]
-[[『ひまわり』ver.1.5(β04以降)>全文検索システム『ひまわ...
-次のシステム要件を満たすか確認して下さい。
-- 64bit版OSを使用していること
--- (microsoft.com) [[自分のパソコンが 32 ビット版か 64 ...
--- (apple.com) [[Intel ベースの Mac のプロセッサが 32 ビ...
-- 64bit版の Java がインストールされていること
+++ 『ひまわり』フォルダの中の himawari.jar をダブルクリ...
+++ [ヘルプ]→[バージョン情報]の最終行に「64-Bit」という記...
-- メモリが4GB以上搭載されていること
-CSJ第1刷をお持ちの方は「修正版 XML 文書」DVD をご用意く...
-CSJ→ひまわり変換パッケージ([[csj2himawari_2.0.zip>http:/...
--&color(red){Windows をお使いの方は,ダウンロードしたフ...
//--なお,本ページでは,[[GPL:http://www.gnu.org/licenses...
*3.ファイルのインポート [#se51b7d4]
『日本語話し言葉コーパス』のXMLデータを『ひまわり』にイ...
+[[csj2himawari_2.0.zip>http://csd.ninjal.ac.jp/archives/...
+CSJ データのコピー
-- 第1刷・第2刷をお持ちの方は,「修正版 XML 文書」DVD(第1...
-- 第3刷をお持ちの方は,DVDセットの2枚目のXMLフォルダーの...
+配置コマンドの実行
--複数のサブコーパスに分割するために,コピーしたXMLファイ...
--- 形態論情報の解析方法(人手/自動)
--- 音声タイプ (例:学会講演,模擬講演など)
--- 音声タイプの詳細情報(例:学会の別,模擬講演テーマの別...
-- 次のファイルをダブルクリックして下さい。
setup.bat ... Windows の場合
setup.command ... MacOS X の場合
setup.sh ... その他の場合(bash を利用)
-- コマンドが正常に終了すると,CSJ2Himawari/CSJ フォルダ...
--- Manual ... 人手形態論情報解析分用のフォルダ
--- AutomaticA01〜A11 ... 自動形態論情報解析分のフォルダ(...
--- AutomaticD, M, R ... 自動形態論情報解析分のフォルダ(...
--- AutomaticS00〜S11 ... 自動形態論情報解析分のフォルダ(...
+ インポートの実行
++ 『ひまわり』を起動してください。
--- 『ひまわり』がインストールされているフォルダに移動し...
java -jar himawari.jar
--- コマンドラインからの実行方法がわからない場合は,CSJ2H...
himawari_exec.bat ... Windows の場合
himawari_exec.command ... MacOS X の場合
himawari_exec.sh ... その他の場合(bash を利用)
++ [ファイル]→[インポート]を実行すると,ウィンドウが現れ...
++ [インポート]ボタンを押してください。1〜2時間程度で変...
以上で,データのインポートは終了です。『ひまわり』での...
*4.使い方 [#g12e5585]
ここでは,『日本語話し言葉コーパス』データに固有の事柄...
-「[[形態論情報の概要>http://www.ninjal.ac.jp/corpus_cent...
-「[[短単位・長単位データマニュアル>http://www.ninjal.ac....
-「[[節単位認定>http://www.ninjal.ac.jp/corpus_center/csj...
-「[[転記テキスト>http://www.ninjal.ac.jp/corpus_center/c...
- [[『日本語話し言葉コーパス』の概観>http://www.ninjal.ac...
-「[[音声収録作業の概要>http://www.ninjal.ac.jp/corpus_ce...
**4.1『日本語話し言葉コーパス』を検索対象にするには [#ke9...
『日本語話し言葉コーパス』用の設定ファイルは,config_cs...
**4.2 サブコーパスの選択 [#mbff38f8]
[[コーパス選択機能>全文検索システム『ひまわり』/利用者...
**4.3 検索対象の詳細 [#ree5188d]
次の項目を対象として,検索することができます。利用者マ...
-全文:&br;
形態論情報を考慮せずに,全文検索します。なお,検索結果と...
-全文(正規表現):&br;
形態論情報を考慮せずに,全文検索します。「全文」との相違...
-短単位(要素単位):
--短単位のレベルで検索します。
--例えば,上記の「全文」を選択し,「国語」を検索すると,...
-品詞(属性):&br;
品詞をキーとして検索します。文字列の照合には,正規表現を...
-代表形(属性):&br;
代表形をキーとして検索します。文字列の照合には,正規表現...
-節境界(属性):&br;
節境界情報をキーとして検索します。文字列の照合には,正規...
**4.4 転記テキストの閲覧 [#ga9b8777]
検索結果をダブルクリックすると,当該の検索文字列を含ん...
-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は,赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると,下の図のように...
-長単位の区切り(|)にマウスカーソルを合わせると,長単位の...
-節境界($)にマウスカーソルを合わせると,節境界の情報が表...
#br
#ref(./csj_manual_sample_browse.png)
#br
ページ名: