[PukiWiki]

全文検索システム『ひまわり』/簡単な検索用データの作成方法2 の履歴(No.44)


  • 履歴一覧
  • 差分 を表示
  • 現在との差分 を表示
  • ソース を表示
  • 全文検索システム『ひまわり』/簡単な検索用データの作成方法2 へ行く。
    • 1 (2014-02-16 (日) 22:40:41)
    • 2 (2014-02-16 (日) 22:40:59)
    • 3 (2014-02-16 (日) 22:41:59)
    • 4 (2014-02-17 (月) 19:51:27)
    • 5 (2014-02-17 (月) 19:52:02)
    • 6 (2014-02-17 (月) 19:53:05)
    • 7 (2014-02-17 (月) 19:55:11)
    • 8 (2014-02-17 (月) 19:55:26)
    • 9 (2014-02-17 (月) 20:10:39)
    • 10 (2014-02-17 (月) 20:15:42)
    • 11 (2014-02-17 (月) 20:16:30)
    • 12 (2014-02-17 (月) 20:16:49)
    • 13 (2014-02-17 (月) 20:17:11)
    • 14 (2014-02-17 (月) 20:35:17)
    • 15 (2014-02-17 (月) 20:37:23)
    • 16 (2014-02-17 (月) 20:37:34)
    • 17 (2014-02-17 (月) 20:39:54)
    • 18 (2014-02-17 (月) 21:45:00)
    • 19 (2014-02-19 (水) 15:02:10)
    • 20 (2014-02-19 (水) 15:02:28)
    • 21 (2014-02-19 (水) 15:07:50)
    • 22 (2014-02-19 (水) 15:08:51)
    • 23 (2014-02-19 (水) 15:10:50)
    • 24 (2014-02-20 (木) 21:23:43)
    • 25 (2014-02-20 (木) 21:24:32)
    • 26 (2014-02-20 (木) 21:29:45)
    • 27 (2014-02-20 (木) 21:30:26)
    • 28 (2014-02-20 (木) 21:30:48)
    • 29 (2014-02-22 (土) 21:49:54)
    • 30 (2014-02-22 (土) 21:50:50)
    • 31 (2014-02-22 (土) 22:33:10)
    • 32 (2014-02-22 (土) 22:33:10)
    • 33 (2014-02-22 (土) 22:33:10)
    • 34 (2014-02-24 (月) 17:33:16)
    • 35 (2014-02-24 (月) 18:08:12)
    • 36 (2014-02-24 (月) 18:13:22)
    • 37 (2014-02-24 (月) 18:15:37)
    • 38 (2014-02-24 (月) 18:16:13)
    • 39 (2014-02-24 (月) 18:25:13)
    • 40 (2014-02-24 (月) 18:27:47)
    • 41 (2014-02-24 (月) 18:29:04)
    • 42 (2014-02-24 (月) 19:11:03)
    • 43 (2014-02-26 (水) 11:43:49)
    • 44 (2014-02-26 (水) 12:14:58)
    • 45 (2014-02-26 (水) 12:16:29)
    • 46 (2014-02-26 (水) 12:17:01)
    • 47 (2014-03-01 (土) 23:29:20)
    • 48 (2014-03-01 (土) 23:29:53)
    • 49 (2014-03-02 (日) 22:38:48)
    • 50 (2014-03-02 (日) 22:40:23)
    • 51 (2014-03-02 (日) 22:40:53)
    • 52 (2014-03-02 (日) 23:04:31)
    • 53 (2014-03-02 (日) 23:13:39)
    • 54 (2014-03-02 (日) 23:22:26)
    • 55 (2014-03-03 (月) 15:39:02)
    • 56 (2014-03-03 (月) 15:43:22)
    • 57 (2014-03-03 (月) 16:12:17)
    • 58 (2014-03-03 (月) 16:17:16)
    • 59 (2014-03-03 (月) 16:18:42)
    • 60 (2014-03-03 (月) 16:31:12)
    • 61 (2014-03-03 (月) 16:31:37)
    • 62 (2014-03-03 (月) 16:49:02)
    • 63 (2014-04-14 (月) 18:24:36)
    • 64 (2014-04-14 (月) 18:24:36)
    • 65 (2014-04-14 (月) 18:24:36)

全文検索システム『ひまわり』

本ページは作成中です。

目次

  • 1.はじめに
  • 2.用意するもの
  • 3.資料のインポート手順
    • 3.1 検索用テキストファイルの収集
    • 3.2 『ひまわり』へのインポート
    • 3.3 インポートした資料の確認
    • 3.4 インポートした資料の選択
  • 4.形態素解析結果の取り込み
    • 4.1 形態素解析システムのインストール
    • 4.2 形態素解析結果の取り込みの実行
  • 5.言語資料の利用
    • 5.1 形態素での検索

1.はじめに†

  • 「青空文庫」(テキスト版)を例に,テキストファイルを『ひまわり』にインポートする方法を説明します。
  • 『ひまわり』ver.1.5 を使用します。ver.1.3 では動作しません。
  • 作業環境として,Windows 環境を想定しています。
↑

2.用意するもの†

  • 『ひまわり』 ver.1.5 のインストール
  • 検索用テキストファイルのサンプル (「青空文庫」から4作品を収録)
  • テキストエディタ ... 以下のテキストファイルの編集ができるもの
    • 文字コード: Unicode (UTF-16 Byte Order Mark 付き)
    • 改行コード: LF
    • 例: サクラエディタ(ver.2.x), 秀丸エディタ
↑

3.資料のインポート手順†

↑

3.1 検索用テキストファイルの収集†

 まず,検索用のテキストファイルを集めます。ここで対象とする「テキストファイル」とは,ファイル名が「〜.txt」というように,「.txt」で終わるファイルのことです。今回は,簡単のためにサンプルアーカイブを用意しました。アーカイブを解凍し,次のようなフォルダの構造で,四つの作品が収録されていることを確認してください。

+ 青空サンプル
  +- 芥川竜之介
  |  +- 蜘蛛の糸.txt
  |  +- 羅生門.txt
  |
  +- 宮沢賢治
     +- 風の又三郎.txt
     +- 銀河鉄道の夜.txt

 もちろん,自分でテキストファイルを収集したり,テキストエディタで作成したりしてもかまいません。ただし,その際は,上記のように,一つのフォルダの中にファイルをまとめてください。また,著者名をフォルダ名に,作品名をファイル名にすると,著者名,作品名を検索のときに利用できます。ファイル名の末尾は,「.txt」にすることにも注意してください。

 「青空文庫」の作品を収集する場合は,「ファイル種別」が「テキストファイル」のデータをダウンロードして下さい。次の図は,芥川竜之介の「芋粥」のダウンロードベージです。ただし,今回,テキストファイルを使用するのは,資料のインポートの仕組みを説明するためです。もし,実際の資料として利用する場合は,XHTML版の利用をお勧めします(その場合も,青空文庫であれば,インポートの方法は変わりません)。

テキストのダウンロード
↑

3.2 『ひまわり』へのインポート†

 上記の四つのファイルを『ひまわり』にインポートします。インポートするには,[ファイル]→インポートを実行してください。

インポートの実行

 すると,次のウィンドウが現れますので,「参照」ボタンを押して,検索用のテキストファイルをまとめたフォルダ(上記の場合は,「青空サンプル」フォルダ)を選択して下さい。選択すると,自動的にコーパス名が「青空サンプル」になります。好きな名前を付けてもかまいません。設定が済んだら,「インポート」ボタンを押して,インポートを開始します。

インポートの対象

 1〜2分程度でインポートは終了し,成功すれば,次のような画面が出てきます。これで,『ひまわり』へのインポートは完了し,検索できる状態になります。

インポート結果
↑

3.3 インポートした資料の確認†

 それでは,用意した資料をすべて取り込めたかを確認するために,作品一覧を出してみます。[ツール]→「タイトル,著者」を実行して下さい。正しく取り込めていれば,次のようなリストが表示されるはずです。「タイトル」欄には,ファイル名に指定した作品名が,「path」欄にはコーパス名,フォルダ構造をまとめた情報が表示されます。

作品一覧
↑

3.4 インポートした資料の選択†

 『ひまわり』は設定ファイルを切り替えて,検索対象の資料を選択します。インポート機能を利用して作成した資料にも,専用の設定ファイルが自動的に作成されます。『ひまわり』がインストールされているフォルダに,次の二つの設定ファイルが作成されていることを確認して下さい。

  • config_(コーパス名).xml ... 全文検索機能のみを利用する場合の設定ファイル
  • config_(コーパス名).db.xml ... 人手のアノテーション,形態素解析結果のアノテーションなど,データベースを利用する場合の設定ファイル

 インポートした直後は,config_(コーパス名).xml が読み込まれた状態になります。別の設定ファイルを読み込むには,[ファイル]→「新規」を使って下さい。

設定ファルの読み込み

 資料をインポートした時点で,config_(コーパス名).xml の機能をすべて利用することができます。これは,『ひまわり』ver.1.3 の機能と同等です。検索方法を始めとした具体的な使い方は,利用者マニュアルを参照して下さい。

 config_(コーパス名).db.xml の固有の機能,つまり,各種のアノテーションに関連する機能を利用するには,次節以降に述べることにします。

↑

4.形態素解析結果の取り込み†

 『ひまわり』ver.1.5 から,外部プログラムによるアノテーション結果や人手のアノテーションを『ひまわり』内部のデータベースに取り込むことができるようになりました。本節では,形態素解析システムの結果を『ひまわり』に取り込む方法について説明します。

↑

4.1 形態素解析システムのインストール†

 今回は,形態素解析システムとして,MeCab(主に,Windows版)を例に説明します。config_(コーパス名).db.xml には,MeCab のほか,JUMAN 用の設定が付属しています。

 Windows 版の MeCab のインストールは,Binary package for MS-Windowsをダウンロードし,インストーラにしたがって,インストールして下さい。インストール時に「辞書の文字コード」の選択がありますが,「Shift_JIS」を選んで下さい。

 Windows 版以外の OS については,ソースをコンパイルするか,使用しているディストリビューションのパッケージを利用して下さい。なお,辞書の文字コードは,使用している OS のデフォルトの文字コードを指定して下さい。

MeCab文字コード
↑

4.2 形態素解析結果の取り込みの実行†

 形態素解析結果を『ひまわり』のデータベースに取り込むには,[ツール]→[アノテーション]→「MeCab」を実行して下さい。

MeCab実行

 「アノテーション完了」のメッセージが出れば,終了です。実行直後に終了してしまったり,エラーメッセージが出る場合は,himawari_debug.exe で再度同じ操作をして『ひまわり』側のエラーメッセージを見る,MeCab 自体の動作確認をするなどを行なってみて下さい。

MeCab終了
↑

5.言語資料の利用†

 ここでは,形態素解析結果の利用を中心として,インポートした言語資料の利用方法を説明します。

↑

5.1 形態素での検索†

 


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS