[PukiWiki]

全文検索システム『ひまわり』/『分類語彙表』を『ひまわり』で利用する方法

Top/全文検索システム『ひまわり』/『分類語彙表』を『ひまわり』で利用する方法

全文検索システム『ひまわり』

 

現在,本コンテンツは,保守されていません。

 

1.はじめに†

  • 『分類語彙表増補改訂版』(研究用データ)を『ひまわり』で利用する方法について説明します。
  • 本資料の内容は,次の環境でテストしています。本資料の内容をお試しいただく場合は,自己責任でお願いいたします。
    • 『ひまわり』(ver.1.2β03)
    • 環境1
      • OS: WindowsXP(SP2)
      • Memory: 512MB
      • Perl: ActivePerl ver.5.8.6.811
    • 環境2
      • OS: Debian GNU/Linux ver.3.0
      • Memory: 1GB
      • Perl: ActivePerl ver.5.8.6.811
  • 実行例は,次のとおりです。画像をクリックすると大きくなります。
     
    『分類語彙表増補改訂版』への適用
↑

2.準備†

  • 『分類語彙表増補改訂版』(研究用データ)を入手してください。
    • 入手方法は,『分類語彙表増補改訂版』(研究用データ)をご覧ください。
    • 『分類語彙表増補改訂版』(書籍版)に付属の CD-ROM のデータには対応していませんのでご注意ください。
  • 『分類語彙表』→『ひまわり』変換パッケージ(filebun2him.lzh)をダウンロードしておいてください。なお,本ページでは,GPL ライセンスに基づいて,このパッケージを配布しています。
  • Perl (ver.5.8.6 以上) をお手持ちのPCにインストールしてください。
    • Perl は,変換に必要なプログラミング言語です。
    • ActiveState で無償で配布しています。
      • Windows 版ダウンロード
      • Linux 版ダウンロード
    • 詳しくは,ActiveState の ActivePerl のページ や Instalation Guide をご覧ください。
  • 『ひまわり』 ver.1.3 をインストールしてください。
↑

3.変換手順†

↑

3.1 パッケージの解凍†

  • 「準備」のところで示した filebun2him.lzh を解凍してください。このファイルは,LZH 形式で圧縮されていますので,Lhasa32 などをお使いください。
  • 解凍すると,Bun2Himawari フォルダが作成されます。
  • パッケージの内容
    • README.txt
    • bun2himawari.pl
    • b2h.bat
    • config_bunrui.xml
    • Corpora フォルダ
↑

3.2 分類語彙表のデータのインストール†

  • 『分類語彙表増補改訂版』(研究用データ)に同梱されている bunruidb.txt をご用意ください。
  • bunruidb.txt を上記 3.1 で作成された Bun2Himawari フォルダにコピーしてください。
↑

3.3 変換の実行†

  1. 次のいずれかの処理を行ってください。
    1. (Windows をお使いの方のみ): Bun2Himawari フォルダにある b2h.bat をダブルクリックしてください。なお,Windows の設定によっては,ファイル名のうち,拡張子の .bat が表示されない可能性があります。このアイコンhimawari_bat_icon.pngを目印にしてください。
    2. (Windows, Linux 共通): Bun2Himawari フォルダにおいて,次のコマンドを実行してください。
      perl bun2himawari.pl bunruidb.txt corpus.xml
  2. corpus.xml ファイルが作成されたかどうか確認してください。ファイルサイズは,約9MBです。
  3. corpos.xml を Corpora 中の Bunrui フォルダに移動してください。
  4. Corpora フォルダと config_bunrui.xml を『ひまわり』がインストールしてある場所にコピーしてください。
↑

3.4 索引付け†

 次に,作成した corpus.xml に対して,「索引付け」を行います。「索引付け」は,高速に全文検索するために必要な処理です。

 索引付けの手順は,次のとおりです。

  1. 『ひまわり』を起動してください。
  2. [ファイル]→[新規] で,設定ファイルの config_bunrui.xml を読み込んでください。
  3. [ツール]→[インデックス生成]を実行してください。この処理には,5〜10分程度かかります。
  4. 「インデックス生成が終了しました。」と表示されれば,索引付けは終了です。
    なお,なんらかの理由で,インデックス生成を再度行うときは,Bunrui フォルダ中の索引ファイル(拡張子が,.cix, .eix, .aix のファイル)をすべて削除してください。

 以上で,検索用データ作成は終了です。

↑

4.使い方†

  • 『ひまわり』を起動し,[ファイル]→[新規] で,設定ファイルの config_bunrui.xml を読み込んでください。
  • 『分類語彙表』サンプルの2節「使い方」 をご覧ください。設定ファイル名が異なるだけで使い方は同じです。
↑

5.その他†

  • 『分類語彙表増補改訂版』(研究用データ)を UFT-16 に変換している関係上,マイナス記号の入力が困難な場合があります。例えば,「−か日」を検索する場合のように,マイナスが検索文字列に含まれる場合は,この「−」をコピーしてお使いください。なお,UTF-16 だと文字コードは,0x2212 となります。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-06-17
    • 観察支援ツール FishWatchr
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS

total:11080
today:1
yesterday:1

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-05-18 (月) 00:00:00