表記統合辞書 利用マニュアル
ver.1.0 (2005-07-11)
山口昌也,桐生りか,田中牧郎 (独立行政法人 国立国語研究所)
目次
はじめに
- 『表記統合辞書』は,言語研究・自然言語処理用に開発された,同語判別のための基礎データです。
- 『表記統合辞書』の利用例としては,『茶筌』で形態素解析した結果に対して,同語判別を行う,ということが挙げられます。例えば,『茶筌』の解析
結果(IPADIC ver.2.4.4
を利用した場合)では,「組み立てる」と「組立てる」は表記上の違いにより,別語となりますが,『表記統合辞書』を使うことにより,同じ語であると判断す
ることができます。
1.『表記統合辞書』の内容
- 『表記統合辞書』は,IPADIC の各辞書項目に対して,同語と判断される他の辞書項目の「見出し」の情報を追加したものである。
- 本辞書では,IPADIC ver.2.4.4 を使用した。以後,特に断りのないかぎり,このバージョンを『IPADIC』と表記する。
- IPADIC の内容の詳細については,IPADIC に添付されている「ユーザーズマニュアル」を参照されたい。
- 本辞書には,IPADIC に登録されている辞書項目 233624 語(形態素)のうち,同語と認定される辞書項目が存在する 28810 語を収録している。
- 同語の認定は,3節の「統合のための規則」にしたがって行った。
- なお,規則を作成するにあたっては,「通す/透す」といったような意味による書き分けについては,規則化していない。
- 本辞書の内容には,未解決の問題も含まれている。使用にあたっては,4節「未解決の問題」を参照のこと。
2.『表記統合辞書』の形式
2.1 物理形式
- 文字コード Shift_JIS
- 改行文字 CR/LF
- タブ区切りのテキスト形式。フィールドの内容は,次のとおり。
- 第1フィールド: IPADIC の「見出し語」
- 第2フィールド: IPADIC の「読み」
- 第3フィールド: IPADIC の「品詞名」
- 第4フィールド: IPADIC の「活用型」
- 第5フィールド: 当該の「見出し語」に対して,同語と判断された「見出し語」のリスト
- 当該の辞書項目の見出しも含める。
- 見出しと見出しの間は,「くみたてる/組み立てる/組立てる」のように,「/」で区切って列挙する。
- あくまでも,「当該の「見出し語」に対して同語」ということであり,ここに列挙された語の間すべてに同語の関係があるわけではない。
2.2 例
|
第1フィールド |
第2フィールド |
第3フィールド |
第4フィールド |
第5フィールド |
例1 |
編みもの |
アミモノ |
名詞-一般 |
|
編みもの/編み物/編物 |
例2 |
編み物 |
アミモノ |
名詞-一般 |
|
編みもの/編み物/編物 |
例3 |
編物 |
アミモノ |
名詞-一般 |
|
編みもの/編み物/編物 |
例4 |
すばやい |
スバヤイ |
形容詞-自立 |
形容詞・アウオ段 |
すばやい/素早い |
例5 |
素早い |
スバヤイ |
形容詞-自立 |
形容詞・アウオ段 |
すばやい/素早い |
例6 |
厩舎 |
キュウシャ |
名詞-一般 |
|
きゅう舎/厩舎 |
例7 |
鳩舎 |
キュウシャ |
名詞-一般 |
|
きゅう舎/鳩舎 |
例8 |
きゅう舎 |
キュウシャ |
名詞-一般 |
|
きゅう舎/厩舎/鳩舎 |
例の見方
- 例1: 「編みもの」は,「編み物」「編物」と同語である。
- 例8: 「きゅう舎」は,「厩舎」「鳩舎」と同語である。ただし,第5フィールドに列挙されている見出し語の間に同語の関係があるわけではないことに注意されたい。したがって,例えば,「厩舎」と「鳩舎」が同語であることを意味してはいない。
3.統合のための規則
IPADIC の辞書項目のうち,
であり,次の規則に合致する辞書項目同士は,同語とする。ただし,品詞が「名詞-固有名詞」の辞書項目については,対象外とする。なお,以下の規則中に示した実例は,左から IPADIC の「読み」,「品詞」,同語と判断される「見出し(語)」の列である。
- 送り仮名による違い
- 字種による違い
- ひらがな,カタカナ,漢字
イス 名詞-一般 いす/イス/椅子
イキイキ 副詞-助詞類接続 いきいき/生き生き
ヨビオコス 動詞-自立 よびおこす/呼び起こす
- 一般名詞,および,数詞における漢数字,アラビア数字,ローマ数字
ハチミリ 名詞-一般 8ミリ/八ミリ
レイ 名詞-数 〇/○/零
- アルファベット表記とカタカナ表記
エヌジー 名詞-一般 NG/エヌジー
ヘルツ 名詞-接尾-助数詞 hz/ヘルツ
- 「ヵ」,「か」,「カ」,「ヶ」,「ケ」,「箇」,「個」
カソン 名詞-接尾-助数詞 か村/カ村/ケ村/ヵ村/ヶ村
- アルファベットの大文字・小文字(2文字以上の形態素の場合)
ペーハー 名詞-一般 PH/pH
- 名詞-接尾-助数詞で同一の単位における字種
トン 名詞-接尾-助数詞 t/トン/噸
- 記号類による違い
4.未解決の問題
- カタカナ語の異表記(主な例)
- 長音の有無(例:「コンピュータ」,「コンピューター」)
- 発音表記(例:「バイオリン」,「ヴァイオリン」)
- 漢字の旧字,異体字(例:暁/曉,虱/蝨)
- 別語とするべきものの扱い
- 特に,漢字表記に対するひらがな,カタカナ表記
- 現状では,例えば,外来語の「メイド」(maid)と「明度」は,同語と認定されている。しかし,「明度」をカタカナ表記で「メイド」とすることは,通常ないと思われる。
5.連絡先等
謝辞
- IPADIC を開発された,奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松本研究室)の関係者の方々に感謝いたします。
- 本辞書の作成にあたり有益なコメントを下さった鳴門教育大学の茂木俊伸氏に感謝いたします。
- 本辞書の作成に関わったアルバイタの方々に感謝いたします。