[PukiWiki]

全文検索システム『ひまわり』/国文学研究資料館本文データベースの利用

Top/全文検索システム『ひまわり』/国文学研究資料館本文データベースの利用

全文検索システム『ひまわり』

 

現在,本コンテンツは,保守されていません。

 

1.はじめに†

  • 国文学研究資料館の日本古典文学本文データベースで公開している言語資料を変換し,『ひまわり』で検索する方法を説明します。
  • 作業環境として,Windows 環境を想定しています。
↑

2.国文学研究資料館 日本古典文学本文データベースについて†

  • 概要
     日本古典文学本文データベースは,岩波書店刊行の旧版「日本古典文学大系」の
      全作品の本文(テキスト)をデータベース化したものです。
    (「日本古典文学本文データベース」のホームページから引用)
  • 利用について
    • 「日本古典文学本文データベース」の利用は登録制となっています。詳しくは「日本古典文学本文データベース」の利用案内をご覧ください。
    • 「日本古典文学本文データベース」から検索したデータの取り扱いに際しては,「日本古典文学本文データベース」の「著作権について」をご覧の上,著作権者の権利を侵害しないようにご注意ください。特に,本ページの内容に基づいて作成したデータは,日本古典文学本文データベースの利用登録者本人の研究の範囲内で利用するようにしてください。
↑

3.変換方法†

↑

3.1 ダウンロード†

  1. まず,はじめに『ひまわり』がお手持ちの PC にインストールされているかを確認してください。インストールされていない場合は,『ひまわり』(Ver.1.3) をダウンロードし,インストールしてください。変換の作業は,すべて『ひまわり』がインストールされているフォルダ(以後,「Himawari フォルダ」)の中で行います。
    • 『ひまわり』(Ver.1.3)のダウンロード
    • 詳細はマニュアルをご覧ください。
  2. 変換パッケージをダウンロードしてください。
    • 「日本古典文学本文データベース」変換パッケージ (動作環境 Windows)
    • 本パッケージは GPL ライセンスに基づいて配布します。著作権表示は以下のとおりです。
      Copyright (c)  2007  Masaya YAMAGUCHI, Sae UENO, Miwa FUJIMOTO
    • また,本パッケージには,XSLT Processor の xsltproc,文字コード変換ツール nkf (ver.2.07) を同梱しています。さらに,変換ツールを exe ファイル化するにあたっては,par を利用させていただきました。nkf の権利表示は次のとおりです。
      Network Kanji Filter Version 2.0.7 (2006-06-13) for Win32
      Copyright (C) 1987, FUJITSU LTD. (I.Ichikawa),2000 S. Kono, COW
      Copyright (C) 2002-2006 Kono, Furukawa, Naruse, mastodon
↑

3.2 変換パッケージの使用方法†

↑

3.2.1 変換元データの入手†

  1. 変換データを保存するフォルダを作成します。ここでは説明のためにフォルダ名を仮に「NIJL」としますが,フォルダ名と場所は任意でかまいません。
  2. 国文学研究資料館本文データベース検索システムで,利用したい資料を選択し,「テキスト」→「XMLデータ」をチェックしてテキスト表示させます。なお,ページの閲覧には,Internet Explorer を利用してください(Firefox ではうまく動作しません)。
    • 本ツールでHimawari形式に変換できる資料は,XMLデータが公開されているものに限ります。XMLデータが公開されている資料については,本文データベース検索システムの「ニュースページ」でご確認ください。
    • 資料館で公開されているXMLデータのうち,動作確認ができたファイルはこちらです。
  3. 表示されたテキストの <classics> から </classics> までを選択し,エディタ(秀丸で動作確認しています)にペーストします。この範囲以外には文字などが残らないように気をつけてください。
  4. 貼り付けたデータに適当な名前をつけ,xml形式,文字コード「UTF-8」(BOMはつけないでください)で,先ほど作成したNIJLフォルダに保存します。文字コードの指定の仕方は,使用するエディタによって異なります。
     
    UTF-8で保存
     
  • 秀丸の場合
    [ファイル]→[名前を付けて保存]で,NIJL フォルダに保存。オプションは,次のとおり。
    • ファイル名: (任意のファイル名).xmlと入力
    • ファイルの種類: テキストファイル
    • 文字コード: Unicode(UTF-8)
    • 改行: 改行=自動を選択してNIJLフォルダに保存

5. 上記2〜4を繰り返して,必要なデータをNIJLフォルダに集めます。なお,必要なファイル以外は必ず削除してください。

↑

3.2.2 変換処理†

  1. 上記の変換パッケージをダウンロードしてください。
  2. ダウンロードしたファイルを解凍すると,Himawari_NIJL フォルダが現れます。その中に次のファイルがあることを確認してください。
    • Himawari フォルダ
    • trans フォルダ
    • himawari_nijl.bat
  3. 上記の3点を,先に変換データを格納したNIJLフォルダにコピーします。
  4. himawari_nijl.batをダブルクリックで実行します。コマンドプロンプト(黒い画面)が閉じたら変換終了です。
    なお,何らかの理由により,プログラムを中断し,再度実行する際は,trans フォルダの中に,corpus.xml, corpus2.xml がないことを確認してください。
  5. Himawari\Corpora\nijlフォルダの中に nijl_corpus.xml ファイルができていることを確認してください。
  6. nijl_corpus.xml が XML 文書として正しいか,検証してください。検証する方法の一つは,Internet Explorer を使う方法です。
    1. Internet Explorer で,nijl_corpus.xml を開いてください。
    2. エラーが表示されなければ,正しい XML 文書です。なお,エラーはファイルの末尾に表示されるので,必ずファイルの末尾を確認してください。
    3. エラーが表示された場合は,変換元のデータを修正したのちに,再度変換処理を実行してください。
↑

3.2.3 使用方法†

  1. NIJL\Himawariフォルダの中に次のファイルがあることを確認してください。
    • Corpora フォルダ ...Himawari用に変換されたデータ(nijl_corpus.xml)を格納したフォルダ
    • config_nijl.xml ... 設定ファイル
  2. Corpora フォルダ,config_nijl.xml を『ひまわり』がインストールされているフォルダの中に移動してください。
  3. 以上で,インストールは終了です。
↑

3.3 『ひまわり』での利用方法†

  • 『ひまわり』を起動し,[ファイル]→[新規]で config_nijl.xml を読み込んでください。
  • 変換後,一番最初に利用するとき,[ツール]→[インデックス生成]を実行し,索引づけを行ってください(索引づけについては,「簡単な検索用データの作成方法」3.5節にも説明がありますので,必要に応じてご参照ください)。変換時間は,変換する資料のサイズ,利用環境によって異なりますが,10分程度かかる場合もあります。
  • 詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルをご参照ください。
↑

3.4 検索可能な資料のご報告のお願い†

  • 前述のとおり,『ひまわり』で検索可能であることが確認ができたファイルは,動作確認ファイルのページに公開しています。ただし,すべての国文学研究資料館本文データベースのすべてのデータを調査したわけではありません。
  • もし,動作確認ファイルに掲載されてない資料で,検索可能であることが確認できた場合は,himawari_mail.pngまでご連絡ください。動作確認ファイルに追加させていただきます。
↑

謝辞†

  • 「日本古典文学大系」,および,「日本古典文学本文データベース」関係者の方々に感謝いたします。
  • 本ページの内容は,『博報「ことばと文化・教育」研究助成』を受けて行われた「言語資料の共有,利用を支援する環境構築に関する研究」の成果の一部です。研究助成してくださった財団法人博報児童教育振興会に感謝いたします。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-07-04
    • 全文検索システム『ひまわり』/履歴
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴

total:17167
today:1
yesterday:0

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-15 (月) 00:00:00