[PukiWiki]

語種辞書『かたりぐさ』/利用例 の変更点

Top/語種辞書『かたりぐさ』/利用例

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 語種辞書『かたりぐさ』/利用例 へ行く。
  • 語種辞書『かたりぐさ』/利用例 の差分を削除

[[語種辞書『かたりぐさ』]]

*『かたりぐさ』の利用例

+語種辞書『かたりぐさ』には,形態素解析システム『茶筌』に付属する辞書『IPADIC』の「見出し語」(表記),「読み」,「品詞名」,「活用型」の情報と,それに対応する「語種」の情報が含まれています。
--次の例の,「和」(和語),「漢」(漢語),「混」(混種語)のような記号が語種情報です。詳細は,[[利用マニュアル>かたりぐさ/利用マニュアル]]をご参照ください。
--次の例の,「和」(和語),「漢」(漢語),「混」(混種語)のような記号が語種情報です。詳細は,[[利用マニュアル>語種辞書『かたりぐさ』/利用マニュアル]]をご参照ください。
 冬休み  フユヤスミ   名詞-一般        和
 冬至   トウジ     名詞-一般        漢
 冬将軍  フユショウグン 名詞-一般        混
 凍る   コオル     動詞-自立 五段・ラ行  和
+『茶筌』を使って形態素解析を加えると,次のように,文が形態素に分割されます。
--次の例は,例文「言葉の研究でした」の形態素解析結果です(Windows版『茶筌』を使用。左から,出現形,『IPADIC』の見出し語,読み,品詞名,活用型,活用形)。
 言葉  言葉  コトバ    名詞-一般
 の   の   ノ      助詞-連体化
 研究  研究  ケンキュウ  名詞-サ変接続
 でし  です  デシ     助動詞      特殊・デス  連用形
 た   た   タ      助動詞      特殊・タ   基本形
+この形態素解析結果と『かたりぐさ』の情報とを照合させて,次のような語種付きのデータを作ることができます。
--次の例では, 一番右の列に語種が付加されています。
 言葉  言葉  コトバ    名詞-一般                和
 の   の   ノ      助詞-連体化               和
 研究  研究  ケンキュウ  名詞-サ変接続              漢
 でし  です  デシ     助動詞      特殊・デス  連用形  和
 た   た   タ      助動詞      特殊・タ   基本形  和
--Windows環境での作業手順については,[[Windows環境での利用方法>語種辞書『かたりぐさ』/Windows環境での利用方法]]をご参照ください。
&br;
&br;
+このようにして得られたデータを集計することで,テキストにおける語種構成を調べるなど,研究への活用ができます。
&br;
&br;
--例: 毎日新聞一年分データ(2002年)の語種構成 (延べ形態素数: 14,130,238)
&br;
&br;
&ref(mainichi2002.png);
&br;
---上記の比率は,次のものを除いて算出されています。 (これらを含めた延べ形態素数: 33,413,385)&br;
 ・ 助詞・助動詞,固有名詞(『IPADIC』の品詞名「名詞-固有名詞」),数詞(同「名詞-数」),記号&br;
 ・ 未知語(『IPADIC』に登録されていない文字列が形態素として切り出されたもの)&br;
 ・ 複数の語種の可能性のある語(例:「年月」…「トシツキ(和語)/ネンゲツ(漢語)」)
---出典:&br;
 山口昌也・茂木俊伸・桐生りか・田中牧郎(2004)「語種との関係に基づいた新聞記事における語彙の時間的変化分析」『社会言語科学会第13回大会発表論文集』pp.113-116
+研究事例:
--山口昌也・茂木俊伸・桐生りか・田中牧郎(2004)「語種との関係に基づいた新聞記事における語彙の時間的変化分析」『社会言語科学会第13回大会発表論文集』pp.113-116
--茂木俊伸・山口昌也・丸山岳彦・田中牧郎(2005)「語種辞書『かたりぐさ』の開発と月刊雑誌の語種構成分析」『言語処理学会第11回年次大会発表論文集』pp.341-344

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS