国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
[[Webデータに基づく複合動詞データベース/利用者マニュアル]] &size(25){&color(red){本ページは構築中です};}; #br * 収録語 [#yc2a73fb] - 複合動詞(主として,語彙的複合動詞) - 収録される複合動詞を構成する動詞(以後,「構成動詞」と表記する) * 収録語の選定 [#c331a295] 複合動詞の構成要素として多用される構成動詞を「種動詞」として,次の手順で,複合動詞,構成動詞を漸進的に選定する。なお,種動詞は,野村・石井(1987)による構成動詞の頻度調査に基づき,「出す,合う,切る,掛ける,込む,取る,過ぎる,付ける,引く,上げる」の10語とした。 + 種動詞をキーとして,Web 検索し,種動詞を含む Web ページを収集する。 -- 収集量は,連用形,終止形をそれぞれ5000ページ収集する。また,便宜上,後者のコーパスをcorpus1とする。 -- 収集方法は,Baroni,BernardiniBaroni(2004) の方法を基本とした。 + 収集した Web ページを形態素解析し,V1+種動詞,種動詞+V2 を抽出し,複合動詞候補とする。 + 複合動詞候補を人手で選別する。 + 収集した複合動詞をキーとして,Web 検索し,当該複合動詞を含む Web ページを収集する。 -- 収集量は,2000ページ収集する。また,便宜上,後者のコーパスをcorpus2とする。 -- 一定量以上の用例(今回は100例以上)が収集できた複合動詞を収録語とする。 -- 収録語の構成動詞は,収録語となる。 + 決定した収録語の構成動詞(V1, V2)を種動詞として,1〜5を再帰的に実行する。 #br -参考文献 --M. Baroni and S. Bernardini(2004)"BootCaT: Bootstrapping corpora and terms from the web", Proceedings of LREC 2004 --野村雅昭,石井正彦 (1987) 複合動詞資料集,科研費特定研究 (1) 言語データの収集と処理の研究 //-- 収集したWeb ページを形態素解析,構文解析し,当該の複合動詞を含む文を抽出する。 //+ 種動詞をキーとして,Web 検索し,種動詞を含む Web ページを収集する(連用形,終止形,それぞれ5000ページ)。 * 用例の収集 [#a53eda9e] - 用例の収集は,Baroni らの方法を用いる。 * 格要素の収集 [#e5ec92f7]