語種辞書『かたりぐさ』/Windows環境での利用方法
をテンプレートにして作成
開始行:
[[語種辞書『かたりぐさ』]]
*1.はじめに
-本ページでは,語種辞書『かたりぐさ』を Windows 環境で利...
--『かたりぐさ』は,単体では動作しません。
--『かたりぐさ』を利用した語種調査は,次の手順で行います。
---(1) 形態素解析: 語種構成を調べたいテキストを,形態...
---(2) 語種情報の付与: 『茶筌』の解析結果(形態素のリ...
---(3) 集計: 照合の結果(語種情報の付いた形態素のリス...
--以下では,これらの手順について説明します。
--本ページの手順を実行することによって生じた損害への責任...
*2.準備
**2.1 動作環境
--Windows 版『茶筌』(WinCha)が利用できる環境
--プログラミング言語 Perl が実行できる環境
**2.2 必要となるプログラム,ファイル
+形態素解析システム『茶筌』 Windows 版(WinCha)
--Windows 版『茶筌』(WinCha)をダウンロードし,インスト...
---Wincha は,奈良先端科学技術大学院大学 情報科学研究科 ...
---バージョンが複数ある場合は, ''cha21244sp5.exe'' をお...
+Perl
--Perl (ver.5.8.6 以上) をダウンロードし,インストー...
---Perl は,次の 4. の「語種辞書『かたりぐさ』適用パッケ...
---[[ActiveState:http://www.activestate.com/]] で無償で配...
---詳しくは,ActiveState の [[ActivePerl のページ:http://...
+語種辞書『かたりぐさ』
--国立国語研究所[[「言語データベースとソフトウェア」ウェ...
--ダウンロードされたファイルはLZH形式もしくはTGZ形式で圧...
+『かたりぐさ』適用のためのパッケージ
--語種情報付与用の &ref(add_gosyu.lzh,,語種辞書『かたりぐ...
--ダウンロードされたファイルはLZH形式で圧縮されていますの...
+語種構成の調査対象となるテキストファイル
--テキストファイルは,文字コードを Shift_JIS にしてくださ...
*3.手順
**3.1 形態素解析
-調査対象のテキストファイルを,『茶筌』(WinCha)で形態素...
--WinCha の利用方法は,WinCha のReadmeファイル等をご確認...
--表示項目は,「表層語」,「基本形」,「読み」,「品詞」...
***(例)
-例えば,
この例文でテストしてみます。
という文が入力されたテキストファイルが,調査対象だとしま...
まず,テキストエディタ(「メモ帳」等)に上の例文を入力...
次に,このファイルを,上の設定の WinCha にドラッグ&ド...
test.txt.cha の中身は,次のようになっています。左から,...
この この コノ 連体詞
例文 例文 レイブン 名詞-一般
で で デ 助詞-格助詞-一般
テスト テスト テスト 名詞-サ変接続
し する シ 動詞-自立 サ変・スル ...
て て テ 助詞-接続助詞
み みる ミ 動詞-非自立 一段 ...
ます ます マス 助動詞 特殊・マス ...
。 。 。 記号-句点
EOS
**3.2 語種情報の付与
-次のファイルを,同じフォルダ(場所は任意)に置きます。
--(1) WinCha の形態素解析結果
--(2) 上記2.の 3. で用意した『かたりぐさ』本体(katarig...
--(3) 上記2.の 4. で用意したパッケージの中身(add_gosyu...
-add_gosyu.bat をダブルクリックすると,コマンドプロンプト...
--パッケージに含まれる add_gosyu.bat は,この節で示してい...
perl add_gosyu.pl katarigusa.txt test.txt.cha > gosyu_te...
のうち,「test.txt.cha」の部分が入力となるファイル名,「g...
***(例)
-先ほどの test.txt.cha の場合,add_gosyu.bat を実行すると...
gosyu_test.txt の中身は,次のようになっています。右2列に...
この この コノ 連体詞 ...
例文 例文 レイブン 名詞-一般 ...
で で デ 助詞-格助詞-一般 ...
テスト テスト テスト 名詞-サ変接続 ...
し する シ 動詞-自立 サ変・スル ...
て て テ 助詞-接続助詞 ...
み みる ミ 動詞-非自立 一段 ...
ます ます マス 助動詞 特殊・マス ...
。 。 。 記号-句点
EOS
**3.3 集計
-上の手順で出力されたファイルは,タブ区切りテキストの形に...
*4.補足事項
-形態素解析・語種情報付与に関して
--Windows 版『茶筌』パッケージに含まれている WVShell で形...
$FN_CHASEN_HYOUKI = 1;
$FN_CHASEN_YOMI = 2;
を
$FN_CHASEN_HYOUKI = 2;
$FN_CHASEN_YOMI = 1;
のように書き換えてください。
-出力されるファイルに関して
--『茶筌』の出力の設定によっては,次のように,一つの「読...
文 文 ブン 名詞-一般 漢/和 {ブン/フミ}
このため,「語種を判定した読み」の欄として,『かたりぐさ...
-分析に関して
--語種が付与される形態素の単位(長さ)は, IPADIC および...
--テキストに含まれる形態素数が大量になると,出力されるフ...
----
最終更新日: 2005-09-06, 作成日: 2005-03-24
終了行:
[[語種辞書『かたりぐさ』]]
*1.はじめに
-本ページでは,語種辞書『かたりぐさ』を Windows 環境で利...
--『かたりぐさ』は,単体では動作しません。
--『かたりぐさ』を利用した語種調査は,次の手順で行います。
---(1) 形態素解析: 語種構成を調べたいテキストを,形態...
---(2) 語種情報の付与: 『茶筌』の解析結果(形態素のリ...
---(3) 集計: 照合の結果(語種情報の付いた形態素のリス...
--以下では,これらの手順について説明します。
--本ページの手順を実行することによって生じた損害への責任...
*2.準備
**2.1 動作環境
--Windows 版『茶筌』(WinCha)が利用できる環境
--プログラミング言語 Perl が実行できる環境
**2.2 必要となるプログラム,ファイル
+形態素解析システム『茶筌』 Windows 版(WinCha)
--Windows 版『茶筌』(WinCha)をダウンロードし,インスト...
---Wincha は,奈良先端科学技術大学院大学 情報科学研究科 ...
---バージョンが複数ある場合は, ''cha21244sp5.exe'' をお...
+Perl
--Perl (ver.5.8.6 以上) をダウンロードし,インストー...
---Perl は,次の 4. の「語種辞書『かたりぐさ』適用パッケ...
---[[ActiveState:http://www.activestate.com/]] で無償で配...
---詳しくは,ActiveState の [[ActivePerl のページ:http://...
+語種辞書『かたりぐさ』
--国立国語研究所[[「言語データベースとソフトウェア」ウェ...
--ダウンロードされたファイルはLZH形式もしくはTGZ形式で圧...
+『かたりぐさ』適用のためのパッケージ
--語種情報付与用の &ref(add_gosyu.lzh,,語種辞書『かたりぐ...
--ダウンロードされたファイルはLZH形式で圧縮されていますの...
+語種構成の調査対象となるテキストファイル
--テキストファイルは,文字コードを Shift_JIS にしてくださ...
*3.手順
**3.1 形態素解析
-調査対象のテキストファイルを,『茶筌』(WinCha)で形態素...
--WinCha の利用方法は,WinCha のReadmeファイル等をご確認...
--表示項目は,「表層語」,「基本形」,「読み」,「品詞」...
***(例)
-例えば,
この例文でテストしてみます。
という文が入力されたテキストファイルが,調査対象だとしま...
まず,テキストエディタ(「メモ帳」等)に上の例文を入力...
次に,このファイルを,上の設定の WinCha にドラッグ&ド...
test.txt.cha の中身は,次のようになっています。左から,...
この この コノ 連体詞
例文 例文 レイブン 名詞-一般
で で デ 助詞-格助詞-一般
テスト テスト テスト 名詞-サ変接続
し する シ 動詞-自立 サ変・スル ...
て て テ 助詞-接続助詞
み みる ミ 動詞-非自立 一段 ...
ます ます マス 助動詞 特殊・マス ...
。 。 。 記号-句点
EOS
**3.2 語種情報の付与
-次のファイルを,同じフォルダ(場所は任意)に置きます。
--(1) WinCha の形態素解析結果
--(2) 上記2.の 3. で用意した『かたりぐさ』本体(katarig...
--(3) 上記2.の 4. で用意したパッケージの中身(add_gosyu...
-add_gosyu.bat をダブルクリックすると,コマンドプロンプト...
--パッケージに含まれる add_gosyu.bat は,この節で示してい...
perl add_gosyu.pl katarigusa.txt test.txt.cha > gosyu_te...
のうち,「test.txt.cha」の部分が入力となるファイル名,「g...
***(例)
-先ほどの test.txt.cha の場合,add_gosyu.bat を実行すると...
gosyu_test.txt の中身は,次のようになっています。右2列に...
この この コノ 連体詞 ...
例文 例文 レイブン 名詞-一般 ...
で で デ 助詞-格助詞-一般 ...
テスト テスト テスト 名詞-サ変接続 ...
し する シ 動詞-自立 サ変・スル ...
て て テ 助詞-接続助詞 ...
み みる ミ 動詞-非自立 一段 ...
ます ます マス 助動詞 特殊・マス ...
。 。 。 記号-句点
EOS
**3.3 集計
-上の手順で出力されたファイルは,タブ区切りテキストの形に...
*4.補足事項
-形態素解析・語種情報付与に関して
--Windows 版『茶筌』パッケージに含まれている WVShell で形...
$FN_CHASEN_HYOUKI = 1;
$FN_CHASEN_YOMI = 2;
を
$FN_CHASEN_HYOUKI = 2;
$FN_CHASEN_YOMI = 1;
のように書き換えてください。
-出力されるファイルに関して
--『茶筌』の出力の設定によっては,次のように,一つの「読...
文 文 ブン 名詞-一般 漢/和 {ブン/フミ}
このため,「語種を判定した読み」の欄として,『かたりぐさ...
-分析に関して
--語種が付与される形態素の単位(長さ)は, IPADIC および...
--テキストに含まれる形態素数が大量になると,出力されるフ...
----
最終更新日: 2005-09-06, 作成日: 2005-03-24
ページ名: