[PukiWiki]

全文検索システム『ひまわり』/簡単な検索用データの作成方法

Top/全文検索システム『ひまわり』/簡単な検索用データの作成方法

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2020-09-30
 

目次

  • 1.はじめに
  • 2.用意するもの
  • 3.作成手順
    • 3.1 書誌情報のタグ付け
    • 3.2 複数の文書を一度に検索できるようにする
    • 3.3 文書の保存
    • 3.4 作成した文書のチェックをする
    • 3.5 作成した文書のインストール
    • 3.6 索引付け
  • 4. 参考資料

1.はじめに†

  • 『ひまわり』の検索用データの作成方法について説明します。
  • ここでは,タグ付けされていないテキストに書誌情報をタグ付けした簡単な XML 文書を作成します。
↑

2.用意するもの†

  • 『ひまわり』(ver.1.6以降)のインストール
  • 検索対象のテキスト
  • テキストエディタ
    • Windows の場合: サクラエディタ,秀丸エディタ
    • macOS の場合: mi
    • なお,上記以外のエディタをお使いの方は,次の条件のファイルを作成できるエディタをご用意ください。お使いのエディタで作成できない場合は,文字コード変換プログラムを利用して,文字コードと改行コードを変換してください。
      • 文字コード: Unicode (UTF-16 BOM 付き)
      • 改行コード: LF
  • filesimpledoc.zip ... ダウンロードしておいてください。
↑

3.作成手順†

↑

3.1 書誌情報のタグ付け†

 検索対象のテキストをエディタで開いてください。ここでは,芥川龍之介の「蜘蛛の糸」を開いています。

エディタで開く,center

 次に書誌情報として,「著者」と「タイトル」を付与することにします。まず,文書の先頭に次のタグを付け加えてください。これを「開始タグ」と言います。

<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">

 上の例のように,半角の <> で囲われた部分がタグです。「simpledoc」は,タグの名前です。このタグの属性として,「タイトル」と「著者」を埋め込みます。= や " は半角であることに注意してください。

<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
 ある日の事でございます。御釈迦様は極楽の蓮池のふちを、独りでぶらぶら御歩き
になっていらっしゃいました。池の中に咲いている蓮の花は、みんな玉のようにまっ
白で、そのまん中にある金色の蕊からは、何とも云えない好い匂が、絶間なくあたり
へ溢れて居ります。極楽は丁度朝なのでございましょう。

 次に,文書の末尾に,開始タグと対応する「終了タグ」の「</simpledoc>」をつけます。これで,開始タグと終了タグで囲まれた範囲の書誌情報が記述できたことになります。

 しかし極楽の蓮池の蓮は、少しもそんな事には頓着致しません。その玉のような白
い花は、御釈迦様の御足のまわりに、ゆらゆら萼を動かして、そのまん中にある金色
の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れて居ります。極楽もも
う午に近くなったのでございましょう。
</simpledoc>

 最後に,今作成した文書全体を「corpus」タグで囲います。文書の先頭には,開始タグの「<corpus>」,文書の末尾には,終了タグの「</corpus>」をつけてください。また,この文書がXMLで記述されていることを表すために,「<?xml version="1.0" encoding="utf-16" ?>」をファイルの冒頭に書き込んでください。

<?xml version="1.0" encoding="utf-16" ?>
<corpus>
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
 ある日の事でございます。御釈迦様は極楽の蓮池のふちを、独りでぶらぶら御歩き
になっていらっしゃいました。池の中に咲いている蓮の花は、みんな玉のようにまっ
白で、そのまん中にある金色の蕊からは、何とも云えない好い匂が、絶間なくあたり
へ溢れて居ります。極楽は丁度朝なのでございましょう。

          :(中略)

 しかし極楽の蓮池の蓮は、少しもそんな事には頓着致しません。その玉のような白
い花は、御釈迦様の御足のまわりに、ゆらゆら萼を動かして、そのまん中にある金色
の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れて居ります。極楽もも
う午に近くなったのでございましょう。
</simpledoc>
</corpus>

 以上で,タグ付けは終了です。

↑

3.2 複数の文書を一度に検索できるようにする†

 3.1 では,一つの作品に対して,書誌情報をつけました。しかし,たくさんの作品を一度に検索したいことがよくあると思います。

 そこで,別の作品を追加する方法について説明します。ここでは,同じ芥川龍之介の「猿蟹合戦」を追加してみます。なお,一つの文書を検索できるだけでよい場合は,この節は読み飛ばしてかまいません。

 追加方法は簡単で,「蜘蛛の糸」のあとに,「猿蟹合戦」を追加するだけです。エディタで追加するテキストをコピーして,「蜘蛛の糸」のあとに貼り付けましょう。結果は,次のようになります。

<corpus>
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
 ある日の事でございます。御釈迦様は極楽の蓮池のふちを、独りでぶらぶら御歩き

          :(中略)

の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れて居ります。極楽もも
う午に近くなったのでございましょう。
</simpledoc>
<simpledoc タイトル="猿蟹合戦" 著者="芥川龍之介">
 蟹の握り飯を奪った猿はとうとう蟹に仇を取られた。蟹は臼、蜂、卵と共に、怨敵
の猿を殺したのである。――その話はいまさらしないでも好い。ただ猿を仕止めた後、
蟹を始め同志のものはどう云う運命に逢着したか、それを話すことは必要である。な
ぜと云えばお伽噺は全然このことは話していない。

          :(中略)

 とにかく猿と戦ったが最後、蟹は必ず天下のために殺されることだけは事実である。
語を天下の読者に寄す。君たちもたいてい蟹なんですよ。
</simpledoc>
</corpus>

 さらに別の文書を追加したい場合も,同じ方法で追加することができます。ただし,追加した結果の文書全体を「corpus」タグで囲うのを忘れないでください。

↑

3.3 文書の保存†

 次に,作成した文書を保存します。保存するときのファイル名は,corpus.xml としてください。また,すでに,説明したように,文字コードはUnicode (UTF-16,BOM 付き),改行コードは LF としてください。

 「サクラエディタ」では,次の設定で保存します。「BOM」がチェックされていることに注意してください。なお,冒頭で紹介した macOS 用のエディタ mi では,BOMの設定がありませんが,UTF-16を選択すれば,BOM付きのファイルになるようです。

文書の保存,center
↑

3.4 作成した文書のチェックをする†

 作成した文書を『ひまわり』にインストールする前に,正しい形式の XML 文書(well-formed)かどうか,確かめます。

 確かめるには,corpus.xml を Web ブラウザにドラッグ&ドロップしてみてください。本ページ作成時点では,Firefox, Chrome, Internet Explorer, Microsoft Edge (Chromium版)で実行できました。Safari やMicrosoft Edge (レガシー版)では使えません。

 正しい形式のXML文書だと,次のように文書全体の構造が表示されます。なお,これは,Firefox での実行結果です。

validation_success.png

 一方,タグの対応関係が正しく記述されないなどの問題があると,次のようにエラーが表示されます。エラーが表示されたら,もう一度 corpus.xml を見直しましょう。

validation_fail.png
↑

3.5 作成した文書のインストール†

 チェックが終わったら,作成した文書(corpus.xml)を『ひまわり』にインストールします。『ひまわり』がまだインストールされていない場合は,『ひまわり』利用者マニュアルを参照して,『ひまわり』のインストールを完了させてください。最新版の『ひまわり』はダウンロードのページにあります。

 corpus.xml のインストールは,次の手順で行ってください。

  1. 「準備」のところで示した filesimpledoc.zip を解凍してください。このファイルは,zip 形式で圧縮されています。Windows であれば,マウスでファイルを右クリック後,「すべて展開」を行うことにより,解凍できます。
  2. 解凍すると,「Himawari_Simpledoc」というフォルダが現れます。その中に「Corpora」というフォルダがあることを確認してください。そして,「Corpora」フォルダの中に,「Simpledoc」フォルダがあるはずです。このフォルダに,作成した corpus.xml をコピーしてください。
    • なお,参考用に上記の例の corpus.xml が同梱されています。コピーする際,上書きの確認が出るかもしれませんが,そのまま上書きコピーしてください。
  3. 『ひまわり』を起動し,Himawari_Simpledoc フォルダを『ひまわり』にドラッグ&ドロップしてください。
    • この処理により,corpus.xml を含め,関連するファイルが『ひまわり』にインストールされます。
↑

3.6 索引付け†

 次に,インストールした corpus.xml に対して,「索引付け」を行います。「索引付け」は,高速に全文検索するために必要な処理です。  索引付けの手順は,次のとおりです。

  1. 『ひまわり』を起動してください。
  2. [ファイル]→[コーパス選択]を実行し,「simpledoc」を選んでください。
  3. [ツール]→[構築]→[インデックス生成]を実行してください。
    注: この際,「すべて初期化」オプションにチェックを入れてください。
  4. 「インデックス生成が終了しました。」と表示されれば,索引付けは終了です。

 以上で,検索用データ作成は終了です。実際に検索してみてください。検索結果をダブルクリックすると,『ひまわり』用の他の言語資料のように,文書全体が表示されます。

↑

4. 参考資料†

 もっと知りたい場合は,『ひまわり』ホームページの「文書 」などを参考にしてください。『ひまわり』用のデータを作成する場合は,特に次の資料を参照してみてください。

  • テキストデータのインポート方法主体の内容(ver.1.6, 2019-07-27,要事前準備)
  • 全文検索システム『ひまわり』を用いた既存資料の活用(第7回コーパス日本語学ワークショップにおけるチュートリアル資料)(実習用サンプルデータ追加, 2015-05-22)
    • 資料p.45以降(「インポートした資料の活用」)部分はすでに古い情報で,現在の『ひまわり』では使用できません。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-05-15
    • 観察支援ツール FishWatchr
    2025-04-08
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS
    2024-11-21
    • 成果物の短縮URL
    2024-06-11
    • 観察支援ツール FishWatchr/既知の問題

total:14481
today:2
yesterday:0

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-10-08 (金) 13:33:48