[PukiWiki]

UniDic/近代文語UniDic

Top/UniDic/近代文語UniDic

UniDic

  • 2022/04/01 このページは更新は終了しています。UniDicの情報はこちらのページをご覧ください。 http://clrd.ninjal.ac.jp/unidic
  • 2012/05/02 科研費報告書『近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用』(2009)のPDFを公開しました。

形態素解析辞書 : 近代文語UniDic†

  • UniDicの情報をまとめた新しいサイトがオープンしました。このページの内容は古い情報です。今後はこちらのページをご覧ください。
  • →https://clrd.ninjal.ac.jp/unidic/

  • 形態素解析辞書 : 近代文語UniDic
    • 概要
      • 近代茶まめ(Windows版)画面
      • 解析結果サンプル
    • 利用条件
      • 近代文語UniDic 利用条件
    • ダウンロード
      • 近代文語UniDicのダウンロード
    • インストール
    • 科研費報告書
    • 参考文献
      • 論文
      • 学会発表
      • 資料(スライド)
    • 連絡先
    • 更新履歴
    • 謝辞
↑

概要†

  • 近代文語UniDicは、UniDicをもとにして近代文語文を解析できるようにした形態素解析辞書です。(現代語版のUniDicはこちら)
  • 主として近代の論説文(明治普通文)を対象としています。文学作品や他の時代のテキストでは必ずしも良い解析結果が得られません。
  • MeCab版とChaSen版を公開しています(Windows用パッケージは両方の辞書を同梱)が、解析精度が高いMeCab版の使用をお勧めします。
↑

近代茶まめ(Windows版)画面†

kindai_chamame08.png
↑

解析結果サンプル*1†

  • UniDic/近代文語UniDic/解析例
  • 北村透谷「内部生命論」(青空文庫) filenaibu_v10.txt
    • 参考(旧バージョンによる解析結果):filenaibu_v09.txt|filenaibu_v08.csv|filenaibu_v07.csv
    • 参考(近代文語文以外の解析例):filetaketori_v10.txt(竹取物語冒頭)
↑

利用条件†

(現代語版UniDic 1.3.12と同等の内容です)

↑

近代文語UniDic 利用条件†

  1. 近代文語UniDic の著作権は,小木曽智信,小椋秀樹,近藤明日子 および The UniDic consortium(代表:伝康晴)が保持する。
  2. 近代文語UniDic を複製又は改変することは,個人的な利用に限り認める。
  3. 近代文語UniDic 及びこれを改変したものを再配布してはならない。
  4. 近代文語UniDic を利用して行った研究等の成果を公表する場合は,近代文語UniDic ver.1.3 を利用したことを明記すること。
  5. 営利を目的として,近代文語UniDic を利用する場合は,事前に著作権者と協議すること。
  6. 近代文語UniDic を利用することによって,直接的・間接的に生じたいかなる損害についても,著作権者は賠償する責任を負わない。
  7. 本文書に定めのない事項については,著作権者と協議すること。
↑

ダウンロード†

↑

近代文語UniDicのダウンロード†

  • 本ページからのダウンロードサービスは終了しました。今後はこちらのページをご覧ください。http://unidic.ninjal.ac.jp/

恐れ入りますが,次のアンケートにお答えください。アンケート結果を送信するとダウンロードページに移動します。
なお,このアンケートは『近代文語UniDic』をどのような方にお使いいただいているかを調べるものです。お送りいただいた情報は,今後の研究・開発に利用させていただきます。

↑

インストール†

  • Windowsパッケージの場合は,ダウンロードしたファイルを解凍し,インストーラ(INSTALL.EXE)を起動して指示に従ってください。インストール終了後,「近代茶まめ」のアイコンから起動してください。
  • 利用するには「MeCab 0.96」以降以降が必要です。あらかじめインストールしておくか、近代文語UniDicをインストールした後ですぐにインストールしてください。
    • MeCabは次のページからダウンロードできます。
      http://code.google.com/p/mecab/downloads/list
↑

科研費報告書†

平成19(2007)〜平成20(2008)年度 科学研究費補助金 若手研究(B) 研究成果報告書 課題番号 19720110

  • 報告書PDF『近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用』(2009) unidic-MLJ_report2009.pdf(10.5MB)
↑

参考文献†

(近代文語に限らない)UniDic全般に関する参考文献については、UniDicダウンロードサイトのこちらのページをご覧ください。

↑

論文†

  • 小木曽 智信, 小町 守, 松本 裕治「歴史的日本語資料を対象とした形態素解析」,自然言語処理, 20(5), pp.727-748, 2013年12月
↑

学会発表†

  • 「近代文語文を対象とした形態素解析辞書の開発」小木曽智信・小椋秀樹・近藤明日子 『言語処理学会第14回年次大会発表論文集』 pp.225-228 2008年3月
  • 「近代文語文を対象とした形態素解析辞書・近代文語UniDic」 小木曽智信・小椋秀樹・近藤明日子 『日本語学会2008年度春季大会予稿集』 pp.211-218 2008年5月
↑

資料(スライド)†

  • 日本語学会2008年度春季大会の会場で使用したスライドです。(情報はVer.0.7にもとづくものです。)
    • スライド(パワーポイント形式)
    • スライド(PDF形式)
↑

連絡先†

近代文語UniDicに関するお問い合わせは次のアドレスにお願いします。
小木曽智信 mail.png

↑

更新履歴†

  • 2017/11/01  更新を停止。今後はこちらのページをご覧ください。http://unidic.ninjal.ac.jp/
  • 2014/03/31 近代文語UniDic Ver.1.4 Windows版パッケージを公開。
  • 2012/12/06 近代文語UniDic Ver.1.3 Windows版パッケージを公開(明六雑誌コーパスの語彙を追加)。
  • 2012/05/02 近代文語UniDic Ver.1.2 Windows版パッケージを公開。
  • 2012/05/02 科研費報告書『近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用』(2009)のPDFを公開。
  • 2009/08/14 近代文語UniDic Ver.1.1 Windows版パッケージ,バイナリ辞書(UTF-8版)を公開。
    • 品詞体系を現代語版UniDic 1.3.12と同期。
    • MeCab版の辞書に仮名形やアクセント型などを出力するようにした。
  • 2009/03/31 近代文語UniDic Ver.1.0 Windows版パッケージ,バイナリ辞書(UTF-8版)を公開。
  • 2008/11/30 近代文語UniDic Ver.0.9 Windows版パッケージ,バイナリ辞書(UTF-8版)を公開。
  • 2008/08/01 近代文語UniDic Ver.0.8 Windows版パッケージ,バイナリ辞書(UTF-8版)を公開。
  • 2008/05/19 近代文語UniDic Ver.0.7a Windows版パッケージ(修正版)を公開。
    • 複数ファイルの解析に失敗するエラーに対応。
    • ファイル末にEOFコードが付いているテキストファイルに対応。
  • 2008/04/11 近代文語UniDic Ver.0.7 Windows版パッケージを公開。
  • 2008/03/28 近代文語UniDic Ver.0.7 バイナリ辞書(UTF-8版)を公開。
↑

謝辞†

近代文語UniDicの開発にあたっては次の研究補助金・助成金等を受けました。

  • (辞書の見出し語整備)科学研究費補助金・若手B(平成19〜20年度・課題番号 19720110)
    「近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用」小木曽智信
    http://kaken.nii.ac.jp/d/p/19720110.en.html
  • (学習用コーパスの作成)第2回博報「ことばと文化・教育」研究助成(平成19年度)
    「近代日本語の文語文を対象とした形態素解析システムの構築と活用」小木曽智信・小椋秀樹・近藤明日子
  • (見出し語の拡張)国立国語研究所・共同研究プロジェクト(平成21〜24年)
    「近代語コーパス設計のための文献言語研究」(プロジェクトリーダー:田中牧郎)
    http://www.ninjal.ac.jp/research/project/b/kindaigo/

なお、この辞書の元となったUniDicは、文部科学省科学研究費補助金特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」(平成18〜22年度,領域代表者:国立国語研究所・前川喜久雄)ほかの助成を受けて開発が行われたものです。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-05-15
    • 観察支援ツール FishWatchr
    2025-04-08
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS
    2024-11-21
    • 成果物の短縮URL
    2024-06-11
    • 観察支援ツール FishWatchr/既知の問題

total:35388
today:3
yesterday:5

*1 いずれも解析器にMeCabを使って,未知のデータを解析したもの。人手修正なし。

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-10-11 (火) 16:02:18