[PukiWiki]

Webデータに基づく複合動詞用例データベース/利用者マニュアル/収録データ の履歴ソース(No.56)


  • 履歴一覧
  • 差分 を表示
  • 現在との差分 を表示
  • 履歴 を表示
  • Webデータに基づく複合動詞用例データベース/利用者マニュアル/収録データ へ行く。
    • 1 (2012-04-17 (火) 15:19:06)
    • 2 (2012-04-18 (水) 19:04:44)
    • 3 (2012-04-18 (水) 19:23:19)
    • 4 (2012-04-18 (水) 19:30:32)
    • 5 (2012-04-18 (水) 19:31:46)
    • 6 (2012-04-18 (水) 21:26:51)
    • 7 (2012-04-18 (水) 21:32:15)
    • 8 (2012-04-18 (水) 22:12:40)
    • 9 (2012-04-19 (木) 23:44:50)
    • 10 (2012-04-19 (木) 23:46:32)
    • 11 (2012-04-19 (木) 23:46:56)
    • 12 (2012-04-19 (木) 23:47:24)
    • 13 (2012-04-19 (木) 23:47:52)
    • 14 (2012-04-20 (金) 00:00:32)
    • 15 (2012-04-20 (金) 00:01:04)
    • 16 (2012-04-20 (金) 13:49:01)
    • 17 (2012-04-24 (火) 16:21:59)
    • 18 (2012-04-24 (火) 16:30:31)
    • 19 (2012-04-26 (木) 22:16:33)
    • 20 (2012-04-26 (木) 22:27:48)
    • 21 (2012-04-26 (木) 23:11:09)
    • 22 (2012-04-27 (金) 13:24:30)
    • 23 (2012-04-27 (金) 16:57:47)
    • 24 (2012-04-27 (金) 17:01:32)
    • 25 (2012-04-27 (金) 17:02:08)
    • 26 (2012-04-27 (金) 17:02:35)
    • 27 (2012-04-27 (金) 17:02:47)
    • 28 (2012-04-27 (金) 17:06:26)
    • 29 (2012-04-27 (金) 17:07:08)
    • 30 (2012-04-27 (金) 17:28:42)
    • 31 (2012-04-27 (金) 17:42:47)
    • 32 (2012-04-27 (金) 18:11:49)
    • 33 (2012-04-27 (金) 20:51:18)
    • 34 (2012-04-27 (金) 20:51:32)
    • 35 (2012-04-27 (金) 20:52:09)
    • 36 (2012-04-27 (金) 22:03:48)
    • 37 (2012-04-27 (金) 22:18:17)
    • 38 (2012-04-27 (金) 22:36:54)
    • 39 (2012-05-15 (火) 21:56:00)
    • 40 (2012-05-15 (火) 22:08:10)
    • 41 (2012-05-16 (水) 11:38:36)
    • 42 (2012-05-16 (水) 14:19:17)
    • 43 (2012-05-16 (水) 14:27:43)
    • 44 (2012-05-16 (水) 14:28:27)
    • 45 (2012-05-16 (水) 14:29:20)
    • 46 (2012-05-16 (水) 14:30:23)
    • 47 (2012-05-16 (水) 14:30:48)
    • 48 (2012-05-16 (水) 14:50:01)
    • 49 (2012-05-16 (水) 23:34:35)
    • 50 (2012-05-16 (水) 23:35:32)
    • 51 (2012-05-17 (木) 11:26:11)
    • 52 (2012-05-17 (木) 11:29:21)
    • 53 (2012-05-17 (木) 11:52:38)
    • 54 (2012-05-17 (木) 12:09:51)
    • 55 (2012-05-17 (木) 12:14:37)
    • 56 (2012-05-17 (木) 12:15:10)
    • 57 (2012-05-17 (木) 12:15:25)
    • 58 (2012-05-17 (木) 12:16:04)
    • 59 (2012-05-17 (木) 13:22:25)
    • 60 (2012-05-17 (木) 13:22:46)
    • 61 (2012-05-17 (木) 13:23:08)
    • 62 (2012-05-17 (木) 13:23:37)
    • 63 (2012-05-17 (木) 13:24:55)
    • 64 (2012-05-17 (木) 13:32:58)
    • 65 (2012-05-17 (木) 13:33:20)
    • 66 (2012-05-17 (木) 13:33:44)
    • 67 (2012-05-17 (木) 13:41:42)
    • 68 (2012-05-17 (木) 13:42:00)
    • 69 (2012-05-17 (木) 13:47:46)
    • 70 (2012-05-17 (木) 17:53:00)
    • 71 (2012-05-17 (木) 17:54:30)
    • 72 (2012-05-17 (木) 20:07:00)
    • 73 (2012-07-31 (火) 17:16:59)
    • 74 (2012-07-31 (火) 17:17:17)
    • 75 (2012-07-31 (火) 17:19:20)
[[Webデータに基づく複合動詞データベース/利用者マニュアル]]


&size(25){&color(red){本ページは構築中です};};
#br

* 収録語 [#yc2a73fb]
- 複合動詞(主として,語彙的複合動詞)
- 収録される複合動詞を構成する動詞(以後,「構成動詞」と表記する)

* 語に付与される情報 [#j070c2d9]
** 付与情報 [#s8fdf8c3]
- 表記: 当該の語の基本形とする。
- 読み: 当該の語の基本形の読みを付与する。
- 語構成情報: 前項と後項の表記と読みを付与する。
- 用例: 当該の語を含む「文」を収録する。それぞれの用例には,次の情報が付与される。
-- 格要素情報: 用例中の当該語に依存する格要素を格助詞とペアで格納する。ペアには[[./#c19faac2>出現ページ数]]を併記する。
-- URL: 用例を取得した Web ページの URL

** 実例 [#p58f3740]
|表記|>|聞き出す|
|読み|>|ききだす|
|語構成情報|>|聞く(きく) + 出す(だす)|
|格要素情報&br;(出現ページ数)|ヲ格|情報(159)/話(67)/番号(59)/名前(37)/本音(33)/住所(31)/場所(31)/秘密(24)|
|~|カラ格|人(15)/本人(11)/相手(9)/者(9)/男(7)/彼女(6)/彼(6)/こちら(4)/口(4)/子供(3)|
|~|デ格|電話(7)/中(7)/会(5)|
|~|ニ格|人(6)/中(5)/時(4)/前(4)|

* 収録語の選定 [#c331a295]
 複合動詞の構成要素として多用される構成動詞を「種動詞」として,次の手順で,収録語の複合動詞,構成動詞を漸進的に選定する。なお,種動詞は,野村・石井(1987)による構成動詞の頻度調査に基づき,「出す,合う,切る,掛ける,込む,取る,過ぎる,付ける,引く,上げる」の10語とした。

+ 種動詞をキーとして,Web 検索し,種動詞を含む Web ページを収集する。
-- 収集量は,連用形,終止形をそれぞれ5000ページ収集する。
-- 収集方法は,Baroni,Bernardini (2004) の方法を基本とした。
+ 収集した Web ページを形態素解析し,V1+種動詞,種動詞+V2 を抽出し,複合動詞候補とする。
+ 複合動詞候補を人手で選別する。
+ 収集した複合動詞をキーとして,Web 検索し,当該複合動詞を含む Web ページを収集する。
-- 収集量は,複合動詞ごとに2000ページする。
-- 一定量以上の用例(今回は100例以上)が収集できた複合動詞を収録語とする。
-- 収録語の構成動詞は,収録語となる。
+ 決定した収録語の構成動詞(V1, V2)を種動詞として,1〜5を再帰的に実行する。

#br
LEFT:''参考文献''
-野村雅昭,石井正彦 (1987) 複合動詞資料集,科研費特定研究(1) 言語データの収集と処理の研究
-M. Baroni and S. Bernardini (2004) "BootCaT: Bootstrapping corpora and terms from the web", Proceedings of LREC 2004

* 用例と格要素 [#a53eda9e]
** 収集方法 [#i6cf7f2a]
 用例は,Web データ集(「収録語の選定」の 1, 3で作成されるもの)から収集する。その際,用例は,当該動詞用に作成した Web データ集のみから収集している。また,それぞれの用例には構文解析・格解析を行い,格要素の情報を付与している。収集方法は,次のとおりである。

+  Web ページ集を文区切りし,形態素解析する。
-- 文区切りは,句点相当文字(句点,!,?)の直後で分割し,個々の分割結果を用例とする。
-- 形態素解析は,[[JUMAN ver.6.0>http://nlp.ist.i.kyoto-u.ac.jp/index.php?cmd=read&page=JUMAN&alias[]=%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0JUMAN]] を用いた。
+ 収録語が含まれる文だけを構文解析・格解析([[KNP ver.3.01>http://nlp.ist.i.kyoto-u.ac.jp/index.php?cmd=read&page=KNP&alias[]=%E6%97%A5%E6%9C%AC%E8%AA%9E%E6%A7%8B%E6%96%87%E8%A7%A3%E6%9E%90%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0KNP]])する。
+ 収録語が格要素(副詞的な要素も含む)を持つ場合,用例とする。ただし,次のような用例はデータベースに登録しない。
-- 重複する用例(一つだけ登録する)
-- 格要素を持たない用例

** 出現ページ数 [#c19faac2]
 Web データの性質を考慮して,用例,および,格要素は出現頻度ではなく,「出現ページ数」で計測する。使用する際は,次の点に注意されたい。

- 前述のとおり,収集語ごとに Web データ集を構築し,用例も当該収集語の Web データ集のみから取得している。出現ページ数の計測も当該収集語の Web データ集のみから行っている。
- まったく同一の用例は,複数の Web ページに出現していたとしても,出現ページ数1とカウントする。
- ある格助詞・格要素のペアが同一の Web ページ内に複数回出現したとしても,出現ページ数1とカウントする。

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS