[[語種辞書『かたりぐさ』]] ''&size(20){語種辞書『かたりぐさ』 利用マニュアル};'' ''ver.1.0.1 (2005-09-06)'' &br; 茂木俊伸(*1),山口昌也,桐生りか,田中牧郎 (*2) &size(10){*1: 鳴門教育大学 (2005-03-30まで独立行政法人 国立国語研究所)}; &br; &size(10){*2: 独立行政法人 国立国語研究所}; &br;&br; #hr ''目次'' #contents &br; #hr &br;&br; *はじめに 語種辞書『かたりぐさ』(以下,本データ)は,奈良先端科学技術大学院大学松本研究室より公開されている形態素解析システム[[『茶筌(ChaSen)』:http://chasen.naist.jp/hiki/ChaSen/]]付属の電子化辞書『IPADIC』に対応する語種情報データです。&br; 本データの基礎となる辞書の構築に携わられた方々,本データの作成に際してご協力下さった皆様に,心より感謝申し上げます。 *1. データについて 第1章では,本データの形式について述べる。 **1.1 IPADIC -本データでは,2001年3月に公開された[[IPADIC-2.4.4:http://chasen.naist.jp/stable/ipadic/]]を使用している(以下,特に断りのないかぎり,このバージョンを「IPADIC」と呼ぶ)。&br; -IPADICの内容および形式に関しては,IPADICに添付されている「ユーザーズマニュアル」を参照されたい。 **1.2 データの形式 -本データは,タブ区切りテキスト形式のファイルとして提供されている。 -文字コードは,Shift_JISである。 -各項目には,「見出し語」(表記),「読み」,「品詞名」,「活用型」(以上はIPADICによる),および「語種」の情報が,この順で含まれている(語種情報の形式については2.2を参照)。 例)国語 コクゴ 名詞-一般 漢 使う ツカウ 動詞-自立 五段・ワ行促音便 和 *2. 語種情報について 第2章では,本データに付与されている語種情報の概略について述べる。 **2.1 語種とは - 「語種」とは,一般的に,語の出自(ある言語の中でどのようにしてその語が使われるようになったか)を指す。&br; 語は,その言語にもともとあったもの(固有語,本来語)と,他の言語から取り入れられたもの(借用語,(広義の)外来語)に大別することができる。&br; 日本語の場合,固有語は「和語」(やまとことば),借用語のうち特に中国語から入ったものを「漢語」,それ以外の言語(主に西洋の諸言語)から入ったものを「外来語」として区別し,さらにこれら3種のうちの2種以上が結合した「混種語」を加えた4分類がなされることが多い。&br; - 本データでは,語種として,この「和語」「漢語」「外来語」「混種語」の4種を立て,IPADICの辞書項目に対して該当する語種の記号を付与している。 **2.2 語種情報付与の範囲と形式 -本データでは,IPADICに登録されている辞書項目233,624語(形態素)のうち,固有名詞(142,155語)と記号(150語)を除いた,91,319語を語種情報の付与対象としている。 -語種を表す記号は,次の4種である。 --「和」 … 和語 --「漢」 … 漢語 --「外」 … 外来語 --「混」 … 混種語 -上記の記号が複数与えられている辞書項目は,次のようなものである(以下,かぎカッコが見出し語(表記),その中の丸カッコが読みを示す)。 --IPADICにおいて,複数の読みが認められている語 例)「月({ツキ/ゲツ/ガツ})」 → 「和/漢/漢」(読みに対応する語種をスラッシュで区切る) --一つの読みで複数の語種が想定される語 例)「カバ(カバ)」…「樺」(和語)もしくは「河馬」(漢語) → 「和,漢」(想定される語種をカンマで区切る) -上記の記号が与えられていない辞書項目は,次のようなものである。 --語種付与の対象外の語(上述) --IPADICにおいて,読みが記号になっている語(品詞「名詞-数」に含まれる「、」「,」「.」「・」の4語) --単語として特定できなかった語 --語種が不明の語 *3. 語種情報付与の規則について 第3章では,語種情報の付与にあたって設けた規則について述べる。&br; 以下,語種付与に関する原則(使用した資料と付与の方法),その付則,語種分類に関する補足の順に示す。 **3.1 語種情報付与に関する原則 ***3.1.1 調査資料 -IPADICの辞書項目の語種の調査には,『新潮 現代国語辞典(第2版)』(新潮社,2000年)を用いた。&br; -同辞典に収録されていない項目については,必要に応じて資料を追加した上で,調査を行った(3.1.2参照)。 ***3.1.2 補助的資料 -IPADICの辞書項目を『新潮 現代国語辞典(第2版)』で確認できなかった場合の補助的資料として,主に次のものを用いた。 ・『現代語・古語 新潮国語辞典(第2版)』(新潮社,1995年) ・『日本国語大辞典(第2版)』(小学館,2000-2001年) ・『広辞苑(第5版)』(岩波書店,1998年) ・『今昔文字鏡(単漢字10万字版)』(エーアイ・ネット/紀伊國屋書店,2003年) ※『今昔文字鏡(単漢字10万字版)』は,漢字と読みの対応を確認するために使用した。 -上記の資料で確認できた場合は,読みに従って(必要があれば分解した上で),語種を判断した(次に『日本国語大辞典(第2版)』で確認できた例を挙げる)。 例)「秋高(アキダカ)」(米相場関連の用語)…「秋」(和語)+「高」(和語) → 和語 「外販(ガイハン)」(「外交販売」の略)…「外」(漢語)+「販」(漢語) → 漢語 -上記の資料に記載のない場合(特に専門用語や新語等)は,新聞記事データベース(毎日,読売,日経)および全文検索型サーチエンジン([[Google:http://www.google.com/intl/ja/]])を用いて実例の確認を行い,辞典類を利用した場合と同じ手順で語種を付与した。 例)「歌伴(ウタバン)」(歌の伴奏,バックバンド)…「歌」(和語)+「伴」(漢語) → 混種語 「益税(エキゼイ)」(税金関連の用語)…「益」(漢語)+「税」(漢語) → 漢語 「オーヴァードーズ」(薬物の過剰摂取(英語"overdose")) → 外来語 -なお,語源が諸説ある語や語源未詳の語の場合,資料によって(同一の資料でも版によって)掲げられた語種が異なることがあるが,ここでは原則として『新潮 現代国語辞典(第2版)』に従った。 例)「背広」 … 外来語説があるが,『新潮 現代国語辞典(第2版)』の見出しの表記に従い和語とした。 **3.2 語種情報付与に関する付則 ***3.2.1 複合語・連語の処理 -IPADICの辞書項目が辞書の見出し語よりも長い語(句)である場合,分解した上で語種を判断した。 例)「推して知るべし」…「推す」(和語)+「て」(和語)+「知る」(和語)+「べし」(和語) → 和語 「こんなふうに」…「こんな」(和語)+「風」(漢語)+「に」(和語) → 混種語 ***3.2.2 略語の処理 -略語は,表記にかかわらず,元の語から語種を判断した。 例)「断トツ」…「断然」(漢語)+「トップ」(外来語) → 混種語 「駐禁」…「駐車」(漢語)+「禁止」(漢語) → 漢語 -また,略号は,読みに従って判断した。 例)「(株)(カブシキガイシャ)」 → 漢語 ***3.2.3 表記ゆれの処理 -IPADICにおいて同一の語がさまざまな表記形で登録されている場合,語種の判断に支障がないかぎりにおいて,表記や読みのゆれ(まぜ書き,送りがなのゆれ,長音表記の有無,音の清濁のゆれ等)は許容した。 例) 「でんぷん/でん粉/澱粉」…『新潮 現代国語辞典(第2版)』では「デンプン【澱粉】」 → すべて漢語とする 「堂々めぐり/堂々回り/堂々巡り/堂堂回り/堂堂巡り」…同「ドウドウめぐり【堂堂巡(り)・堂堂回(り)】」 → すべて混種語とする -また,当て字の類は,読みに従って判断した。 例)「倶楽部(クラブ)」「遊ゴロ(ショートゴロ)」 → 外来語 **3.3 語種分類に関する補足 -漢語 --一般的に,各時代に中国から入った語(呉音・漢音・唐宋音等の発音の区別がある)のほか,和製漢語(例:「火事」「大根」)を含めて漢語とされる。 --ここでは,他の言語から中国語の音訳を経て入った語(例:「刹那(セツナ)」「盂蘭盆(ウラボン)」),朝鮮漢字音で読む語(例:「諺文(オンモン)」「温突(オンドル)」)についても漢語としている(『新潮 現代国語辞典(第2版)』には,それぞれ「〜の音訳」「〜の朝鮮字音」という注記がある)。 -外来語 --一般的な分類に沿って,欧米系の諸言語から取り入れられた語のほか,和製英語(例:「マイカー」「ナイター」),アイヌ語(例:「オットセイ」「シシャモ」),現代中国語(例:「ラーメン」「高粱(コーリャン)」)等も外来語とした。 -混種語 --和語・漢語・外来語の異種の組み合わせ,すなわち,「外来語+和語」(以下順不同。例:「ガラス張り」「生ビール」),「外来語+漢語」(例:「テレビ局」「豚カツ」),「和語+漢語」(例:「切符」「牛鍋」,いわゆる重箱読み・湯桶読みの語)という構成を持つものが混種語とされる。 --原語の異なる外来語が結合しているもの(例:「テーマパーク」(ドイツ語"Thema"+英語"park"))については,混種語ではなく外来語としている。 --また,IPADICには,「愛する」のようないわゆるサ変活用動詞,「徐々に」のような語尾の付いた副詞が登録されているが,これらも混種語に含まれる。 *連絡先等 -『かたりぐさ』を利用した研究成果を公開された場合は,公開の事実(書誌情報等)をmorphdic@kokken.go.jpまでお知らせいただければ幸いです。ご協力をお願い申し上げます。 -誤りのご指摘,ご意見などについても,上記アドレスまでお願いいたします。お返事はお約束いたしかねますが,今後の開発に役立てさせていただきます。 -最新情報は,独立行政法人 国立国語研究所の[[「言語データベースとソフトウェア」Web ページ:http://www4.kokken.go.jp/lrc/]]で公開しています。 -最新情報は,独立行政法人 国立国語研究所の[[「言語データベースとソフトウェア」Web ページ:http://www.kokken.go.jp/lrc/]]で公開しています。 ---- Copyright 2004 独立行政法人 国立国語研究所&br; 最終更新日: 2004-12-20, 作成日: 2004-12-20 Copyright 2004-2005 独立行政法人 国立国語研究所&br; 最終更新日: 2005-09-06, 作成日: 2004-12-20