[PukiWiki]

全文検索システム『ひまわり』/ダウンロード/『Wikipedia』パッケージ

Top/全文検索システム『ひまわり』/ダウンロード/『Wikipedia』パッケージ

全文検索システム『ひまわり』

『Wikipedia』パッケージの概要†

 本パッケージは,『Wikipedia日本語版』の記事(88万)を『ひまわり』用にインポートしたデータです。

↑

収録データの内容†

  • サイト 『Wikipedia日本語版』
  • 収録記事
    • Wikipedia が公開しているデータベース(2013-11-07時点のデータを使用)に収録されている約88万記事
    • 全記事をランダムに並び替え,10万記事ごとに分割し,計9個のコーパスとしています。
    • パッケージの配布は,最初の10万記事(01/09)と残りの約78万記事(02〜09 / 09)の二つです。
  • テキストの抽出方法
    • Wikipedia Extractor (ver.2.5) によりテキスト部分を抽出
      • 実行時のオプションは,"-sl" を指定(詳細は,マニュアルページを参照のこと)。抽出時に図表や(Wikipediaの)テンプレートなどの要素は削除されるので注意されたい。
      • 記事に該当するタグ(doc タグ)以外は削除
      • 過度なクリーニング処理*1の抑制,タイトルの2重出力の処理を補正するために一部スクリプトを修正した
    •  いわゆる半角文字を全角文字に統一
↑

ダウンロード†

↑

パッケージ†

  • 『Wikipedia』パッケージ 01/09 (20160212β版,10万記事)(圧縮時約679MB,解凍時約910MB, ZIP形式,履歴)
  • 『Wikipedia』パッケージ 02〜09 / 09 (20160212β版,約78万記事)(圧縮時約5.5GB,解凍時約7.4GB, ZIP形式,履歴)
    • 02〜09 / 09を使うには,事前に01/09をインストールしてある必要があります。
    • 検索にはメモリを大量に消費しますので,まずは01/09が動作するか確かめて下さい。
↑

ライセンス・実行時の注意など†

  • 本パッケージは,Wikipedia が公開しているデータベース(2013-11-07時点のデータ)の派生物です。ライセンスは,オリジナルデータのライセンス「クリエイティブ・コモンズ 表示-継承 3.0 非移植」に準じます。
    クリエイティブ・コモンズ・ライセンス
  • 本パッケージは無保証です。本パッケージを利用したことにより生じる,いかなる損害も保証しません。
  • 以下の環境で動作確認をしています。ただし,検索条件,他に起動しているアプリケーションなどにより,メモリが不足する場合があるかもしれません。よろしければ,ページ末のアンケートの「ご意見・ご感想」欄にて,動作環境(OS名,バージョン, 搭載メモリサイズ),動作の可否をご報告下さい。
    • Ubuntu 12.04 (64bit), メモリ8GB
    • Windows7 (64bit) , メモリ4GB
    • Windows7 (32bit) , メモリ2GB (02〜09 / 09 ではメモリ不足が多発)
↑

使用方法†

↑

インストール方法†

  1. 『ひまわり』をインストールしてください。
  2. パッケージをダウンロードし,次の手順でインストールして下さい。
    • 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
    • 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。
      1. ダウンロードしたファイルを解凍すると,WikipediaHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。
          Corpora フォルダ ... 『Wikipedia』データを格納したフォルダ
          config_wikipedia.xml ... 設定ファイル (01 / 09 の場合)
          config_wikipedia_all.xml ... 設定ファイル (02〜09 / 09 の場合⇒01 〜 09 / 09 が検索対象になります)
      2. 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中にコピーしてください。
      • Windows の場合,上書きの確認がでるかもしれませんが,そのまま続行してください。
      • Mac の場合,上書きすると,元あったフォルダの内容が消えてしまうので,Corpora フォルダの中身を個別にコピーして下さい。

 以上で,インストールは終了です。

 なお,インストール直後は,01/09版はconfig_wikipedia.xml,02〜09/09 版は,config_wikipedia_all.xml が『ひまわり』に読み込まれた状態になります。

↑

検索†

  • 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_wikipedia.xml,もしくは,config_wikipedia_all.xml) を読み込んでください。
    • Windows をお使いの方は,検索状況を確認するために,himawari_debug.exe を利用することをお勧めします。
  • 検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。
↑

謝辞†

 記事の著者,Wikipedia の運営者の方々,Wikipedia Extractorの著者に心より感謝いたします。

↑

アンケート†

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-06-17
    • 観察支援ツール FishWatchr
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS

total:8300
today:1
yesterday:1

*1 日本語に適用した場合,リストの項目が一部出力されないなどの問題があるようです。

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-09-07 (火) 15:22:55