[[Webデータに基づく複合動詞データベース/利用者マニュアル]] &size(25){&color(red){本ページは構築中です};}; #br * 収録語 [#yc2a73fb] - 複合動詞(主として,語彙的複合動詞) - 収録される複合動詞を構成する動詞(以後,「構成動詞」と表記する) * 語に付与される情報 [#j070c2d9] ** 凡例 [#s8fdf8c3] - 表記 - 読み - 語構成情報 - 用例,および,その格要素情報 ** 付与情報 [#s8fdf8c3] - 表記: 基本形で表記する。 - 読み: 基本形の読みをひらがなで表記する。 - 語構成情報: 前項と後項の表記と読みを記述する。 - 用例: 当該の語を含む文を収録する。 - 格要素情報: 用例中の当該語の格要素情報を格納する。 ** 実例 [#p58f3740] |表記|>|聞き出す| |読み|>|ききだす| |語構成情報|>|聞く + 出す| |語構成情報|>|聞く(きく) + 出す(だす)| |格要素情報&br;(出現ページ数)|ヲ格|情報(159)/話(67)/番号(59)/名前(37)/本音(33)/住所(31)/場所(31)/秘密(24)| |~|カラ格|人(15)/本人(11)/相手(9)/者(9)/男(7)/彼女(6)/彼(6)/こちら(4)/口(4)/子供(3)| |~|デ格|電話(7)/中(7)/会(5)| |~|ニ格|人(6)/中(5)/時(4)/前(4)| * 収録語の選定 [#c331a295] 複合動詞の構成要素として多用される構成動詞を「種動詞」として,次の手順で,収録語の複合動詞,構成動詞を漸進的に選定する。なお,種動詞は,野村・石井(1987)による構成動詞の頻度調査に基づき,「出す,合う,切る,掛ける,込む,取る,過ぎる,付ける,引く,上げる」の10語とした。 + 種動詞をキーとして,Web 検索し,種動詞を含む Web ページを収集する。 -- 収集量は,連用形,終止形をそれぞれ5000ページ収集する。 -- 収集方法は,Baroni,Bernardini (2004) の方法を基本とした。 + 収集した Web ページを形態素解析し,V1+種動詞,種動詞+V2 を抽出し,複合動詞候補とする。 + 複合動詞候補を人手で選別する。 + 収集した複合動詞をキーとして,Web 検索し,当該複合動詞を含む Web ページを収集する。 -- 収集量は,複合動詞ごとに2000ページする。 -- 一定量以上の用例(今回は100例以上)が収集できた複合動詞を収録語とする。 -- 収録語の構成動詞は,収録語となる。 + 決定した収録語の構成動詞(V1, V2)を種動詞として,1〜5を再帰的に実行する。 #br LEFT:''参考文献'' -野村雅昭,石井正彦 (1987) 複合動詞資料集,科研費特定研究(1) 言語データの収集と処理の研究 -M. Baroni and S. Bernardini (2004) "BootCaT: Bootstrapping corpora and terms from the web", Proceedings of LREC 2004 * 用例と格要素の収集 [#a53eda9e] 用例は,Web データ集(「収録語の選定」の 1, 3で作成されるもの)から収集する。その際,当該動詞用に作成した Web データ集のみから収集している。用例は,格解析を行った後,格ごとに格要素の情報 + Web ページ集を文区切りし,形態素解析する。 -- 文区切りは,句点相当文字(句点,!,?)の直後で分割し,個々の分割結果を用例とする。 //-- 同一 Web 収集処理は,各収録語用の Web データ集 -- 形態素解析は,[[JUMAN ver.6.0>http://nlp.ist.i.kyoto-u.ac.jp/index.php?cmd=read&page=JUMAN&alias[]=%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0JUMAN]] を用いた。 + 収録語が含まれる文だけを構文解析・格解析([[KNP ver.3.01>http://nlp.ist.i.kyoto-u.ac.jp/index.php?cmd=read&page=KNP&alias[]=%E6%97%A5%E6%9C%AC%E8%AA%9E%E6%A7%8B%E6%96%87%E8%A7%A3%E6%9E%90%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0KNP]])する。 + 収録語が格要素(副詞的な要素も含む)を持つ場合,用例とする。ただし,次のような用例はデータベースに登録しない。 -- 重複する用例(一つだけ登録する) -- 格要素を持たない用例 //* 格要素の収集 [#e5ec92f7] //- ここで言う「用例」は,データベースの次の機能で利用されている。 //-- [[用例の表示>../検索してみる#q691a816]]で表示される用例 //-- [[格要素一覧の表示>../検索してみる#o91c8627]]で表示される格要素は,収集された用例を用例を