[PukiWiki]

『表記統合辞書』/利用マニュアル の変更点

Top/『表記統合辞書』/利用マニュアル

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 『表記統合辞書』/利用マニュアル へ行く。
  • 『表記統合辞書』/利用マニュアル の差分を削除

#author("2025-03-12T21:34:23+09:00;2010-01-18T00:00:00+09:00","external:fishwatchr2@gmail.com","fishwatchr2@gmail.com")
[[『表記統合辞書』]]

''&size(20){表記統合辞書 利用マニュアル};''

''ver.1.0 (2005-07-11)''

&br;

山口昌也,桐生りか,田中牧郎 (独立行政法人 国立国語研究所)

&br;&br;

#hr

''目次''

#contents

&br;

#hr

&br;&br;


*はじめに
*はじめに [#lc9ff9a6]
// 本文書では,『表記統合辞書』の利用方法について解説します。

-『表記統合辞書』は,言語研究・自然言語処理用に開発された,同語判別のための基礎データです。
--[[奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松本研究室):http://cl.aist-nara.ac.jp/]]で開発された形態素解析システム[[『茶筌』:http://chasen.naist.jp/hiki/ChaSen/]]付属の電子化辞書『[[IPADIC :http://chasen.naist.jp/stable/ipadic/]]』ver.2.4.4 に対応しています。
--『表記統合辞書』は無償でご利用いただけます。
-『表記統合辞書』の利用例としては,『茶筌』で形態素解析した結果に対して,同語判別を行う,ということが挙げられます。例えば,『茶筌』の解析結果(『IPADIC』 ver.2.4.4 を利用した場合)では,「組み立てる」と「組立てる」は表記上の違いにより,別語となりますが,『表記統合辞書』を使うことにより,同じ語であると判断することができます。

//同じ語の可能性があると判断することができます。

// このデータでは,主として,送り仮名や字種の違いによる異表記を扱う。一方,漢字の字体差による異表記については扱わない。

*1.『表記統合辞書』の内容
*1.『表記統合辞書』の内容 [#k7461207]
-『表記統合辞書』は,『IPADIC』の各辞書項目に対して,同語と判断される他の辞書項目の「見出し」の情報を追加したものである。
--本辞書では,『IPADIC』 ver.2.4.4 を使用した。以後,特に断りのないかぎり,このバージョンを『IPADIC』と表記する。
--『IPADIC』の内容の詳細については,『IPADIC』に添付されている「ユーザーズマニュアル」を参照されたい。
-本辞書には,『IPADIC』に登録されている辞書項目 233624 語(形態素)のうち,同語と認定される辞書項目が存在する 28810 語を収録している。
--同語の認定は,3節の[[「統合のための規則」>#rules]]にしたがって行った。
--なお,規則を作成するにあたっては,「通す/透す」といったような意味による書き分けについては,規則化していない。
-本辞書の内容には,未解決の問題も含まれている。使用にあたっては,4節「[[未解決の問題>#problems]]」を参照のこと。


//語の表記を中に記述されている項目のうち,
//--「見出し」
//--「品詞」
//--「活用型」
//--「読み」

*2.『表記統合辞書』の形式
**2.1 物理形式
*2.『表記統合辞書』の形式 [#hf6c99c8]
**2.1 物理形式 [#n0312a02]
-文字コード Shift_JIS
-改行文字 CR/LF
-タブ区切りのテキスト形式。フィールドの内容は,次のとおり。
--''第1フィールド:'' 『IPADIC』の「見出し語」
--''第2フィールド:'' 『IPADIC』の「読み」
--''第3フィールド:'' 『IPADIC』の「品詞名」
--''第4フィールド:'' 『IPADIC』の「活用型」
--''第5フィールド:'' &color(red){当該の「見出し語」に対して};,同語と判断された「見出し語」のリスト
---当該の辞書項目の見出しも含める。
---見出しと見出しの間は,「くみたてる/組み立てる/組立てる」のように,「/」で区切って列挙する。
---あくまでも,「&color(red){当該の「見出し語」に対して同語};」ということであり,ここに列挙された語の間すべてに同語の関係があるわけではない。

**2.2 例
**2.2 例 [#x3431463]
//|1|2|3|4|5|6|h
||第1フィールド|第2フィールド|第3フィールド|第4フィールド|第5フィールド|h
|''例1''|編みもの|アミモノ|名詞-一般||編みもの/編み物/編物|
|''例2''|編み物|アミモノ|名詞-一般||編みもの/編み物/編物|
|''例3''|編物|アミモノ|名詞-一般||編みもの/編み物/編物|
|''例4''|すばやい|スバヤイ|形容詞-自立|形容詞・アウオ段|すばやい/素早い|
|''例5''|素早い|スバヤイ|形容詞-自立|形容詞・アウオ段|すばやい/素早い|
|''例6''|厩舎|キュウシャ|名詞-一般||きゅう舎/厩舎|
|''例7''|鳩舎|キュウシャ|名詞-一般||きゅう舎/鳩舎|
|''例8''|きゅう舎|キュウシャ|名詞-一般||きゅう舎/厩舎/鳩舎|

#br
''例の見方''
-''例1'': 「編みもの」は,「編み物」「編物」と同語である。
-''例8'': 「きゅう舎」は,「厩舎」「鳩舎」と同語である。&color(red){ただし,第5フィールドに列挙されている見出し語の間に同語の関係があるわけではないことに注意されたい。};したがって,例えば,「厩舎」と「鳩舎」が同語であることを意味してはいない。

*3.統合のための規則&aname(rules);
*3.統合のための規則&aname(rules); [#uc35c53c]
 『IPADIC』 の辞書項目のうち,

-品詞,活用型が同一
-読みが同一

であり,次の規則に合致する辞書項目同士は,同語とする。ただし,品詞が「名詞-固有名詞」の辞書項目については,対象外とする。なお,以下の規則中に示した実例は,左から『IPADIC』の「読み」,「品詞」,同語と判断される「見出し語」の列である。

-送り仮名による違い
--送り仮名の有無
 ワリツケ          名詞-一般              割り付け/割付/割付け
--促音,撥音の有無
 スットンキョウ    名詞-形容動詞語幹   素っ頓狂/素頓狂
 マンマル          名詞-形容動詞語幹      真ん丸/真丸
-字種による違い
--ひらがな,カタカナ,漢字
 イス              名詞-一般              いす/イス/椅子
 イキイキ          副詞-助詞類接続        いきいき/生き生き
 ヨビオコス        動詞-自立              よびおこす/呼び起こす
--一般名詞,および,数詞における漢数字,アラビア数字,ローマ数字
 ハチミリ          名詞-一般              8ミリ/八ミリ
 レイ              名詞-数                〇/○/零
--アルファベット表記とカタカナ表記
 エヌジー          名詞-一般              NG/エヌジー
 ヘルツ            名詞-接尾-助数詞       hz/ヘルツ
--「ヵ」,「か」,「カ」,「ヶ」,「ケ」,「箇」,「個」
 カソン            名詞-接尾-助数詞       か村/カ村/ケ村/ヵ村/ヶ村
--アルファベットの大文字・小文字(2文字以上の形態素の場合)
 ペーハー          名詞-一般              PH/pH
//-長音の有無による違い
--名詞-接尾-助数詞で同一の単位における字種
 トン              名詞-接尾-助数詞       t/トン/噸
-記号類による違い
--読点・中黒の違い,読点・中黒の有無
 ショウチュウガクセイ    名詞-一般        小、中学生/小・中学生/小中学生	
--「々」,「ゝ」などの踊り字の種類,有無
 アラアラシイ      形容詞-自立            荒々しい/荒荒しい
 イヨイヨ          副詞-一般              愈/愈々
 シバシバ          副詞-一般              屡/屡々	


*4.未解決の問題&aname(problems);
*4.未解決の問題&aname(problems); [#r8a719e3]
-カタカナ語の異表記(主な例)
--長音の有無(例:「コンピュータ」,「コンピューター」)
--発音表記(例:「バイオリン」,「ヴァイオリン」)
-漢字の旧字,異体字(例:暁/曉,虱/蝨)
-別語とするべきものの扱い
--特に,漢字表記に対するひらがな,カタカナ表記
--現状では,例えば,外来語の「メイド」(maid)と「明度」は,同語と認定されている。しかし,「明度」をカタカナ表記で「メイド」とすることは,通常ないと思われる。


*5.連絡先等
-『表記統合辞書』を利用した研究成果を公開された場合は,公開の事実(書誌情報等)を morphdic @ kokken_go_jp (&color(red){「_」は,「.」に置き換えてください};) までお知らせいただければ幸いです。ご協力をお願い申し上げます。
*5.連絡先等 [#se50afe2]
-『表記統合辞書』を利用した研究成果を公開された場合は,公開の事実(書誌情報等)を &ref(全文検索システム『ひまわり』/himawari_mail_ninjal.png); までお知らせいただければ幸いです。ご協力をお願い申し上げます。
-誤りのご指摘,ご意見などについても,上記アドレスまでお願いいたします。お返事はお約束いたしかねますが,今後の開発に役立てさせていただきます。
-最新情報は,独立行政法人 国立国語研究所の[[「言語データベースとソフトウェア」Web ページ:http://www.kokken.go.jp/lrc]]で公開しています。
//-最新情報は,独立行政法人 国立国語研究所の[[「言語データベースとソフトウェア」Web ページ:http://www.kokken.go.jp/lrc]]で公開しています。


*謝辞
*謝辞 [#t7e082e5]
-『IPADIC』を開発された,奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松本研究室)の関係者の方々に感謝いたします。
-本辞書の作成にあたり有益なコメントを下さった鳴門教育大学の茂木俊伸氏に感謝いたします。
-本辞書の作成に関わったアルバイタの方々に感謝いたします。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS