#author("2021-09-07T15:22:55+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] //&size(25){&color(red){本ページは構築中です};}; &size(25){&color(red){本ページは構築中です};}; *『Wikipedia』パッケージの概要 [#ec8e3188] 本パッケージは,[[『Wikipedia日本語版』>http://ja.wikipedia.org/wiki/]]の記事(88万)を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。 //まずは,ランダムに抽出した10万記事を公開します。 *収録データの内容 [#o33facbc] - サイト [[『Wikipedia日本語版』>http://ja.wikipedia.org/wiki/]] - 収録記事 -- Wikipedia が公開している[[データベース>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータを使用)に収録されている約88万記事 -- 全記事をランダムに並び替え,10万記事ごとに分割し,計9個のコーパスとしています。 -- パッケージの配布は,最初の10万記事(01/09)と残りの約78万記事(02〜09 / 09)の二つです。 - テキストの抽出方法 -- [[Wikipedia Extractor>http://medialab.di.unipi.it/wiki/Wikipedia_Extractor]] (ver.2.5) によりテキスト部分を抽出 --- 実行時のオプションは,"-sl" を指定(詳細は,マニュアルページを参照のこと)。抽出時に図表や(Wikipediaの)テンプレートなどの要素は削除されるので注意されたい。 --- 記事に該当するタグ(doc タグ)以外は削除 --- 過度なクリーニング処理((日本語に適用した場合,リストの項目が一部出力されないなどの問題があるようです。))の抑制,タイトルの2重出力の処理を補正するために一部スクリプトを修正した -- いわゆる半角文字を全角文字に統一 *ダウンロード [#g26eb865] ** パッケージ [#g637ced3] - [[『Wikipedia』パッケージ 01/09 (20160212β版,10万記事)>http://csd.ninjal.ac.jp/archives/Wikipedia/wikipedia_himawari_20131107_rev20160212.zip]](圧縮時約679MB,解凍時約910MB, ZIP形式,[[履歴>./履歴]]) - [[『Wikipedia』パッケージ 02〜09 / 09 (20160212β版,約78万記事)>http://csd.ninjal.ac.jp/archives/Wikipedia/wikipedia_himawari_20131107_all_rev20160212.zip]](圧縮時約5.5GB,解凍時約7.4GB, ZIP形式,[[履歴>./履歴]]) -- 02〜09 / 09を使うには,事前に01/09をインストールしてある必要があります。 -- 検索にはメモリを大量に消費しますので,まずは01/09が動作するか確かめて下さい。 //- &color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。}; // //- [[『青空文庫』パッケージ>https://docs.google.com/open?id=0B3ugrVEv6NiAR1R6X2tueHR2SWs]](圧縮時約599MB,解凍時約882MB, ZIP形式) ** ライセンス・実行時の注意など [#l49a31e4] - 本パッケージは,Wikipedia が公開している[[データベース>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータ)の派生物です。ライセンスは,オリジナルデータのライセンス「[[クリエイティブ・コモンズ 表示-継承 3.0 非移植>http://creativecommons.org/licenses/by-sa/3.0/deed.ja]]」に準じます。 #html{{ <br /> <a rel="license" href="http://creativecommons.org/licenses/by-sa/3.0/deed.ja"><img alt="クリエイティブ・コモンズ・ライセンス" style="border-width:0" src="http://i.creativecommons.org/l/by-sa/3.0/88x31.png" /></a> }} - 本パッケージは無保証です。本パッケージを利用したことにより生じる,いかなる損害も保証しません。 - 以下の環境で動作確認をしています。ただし,検索条件,他に起動しているアプリケーションなどにより,メモリが不足する場合があるかもしれません。よろしければ,ページ末のアンケートの「ご意見・ご感想」欄にて,動作環境(OS名,バージョン, 搭載メモリサイズ),動作の可否をご報告下さい。 -- Ubuntu 12.04 (64bit), メモリ8GB -- Windows7 (64bit) , メモリ4GB -- Windows7 (32bit) , メモリ2GB (02〜09 / 09 ではメモリ不足が多発) *使用方法 [#lcd27131] ** インストール方法 [#ad87ca23] + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。 + パッケージをダウンロードし,次の手順でインストールして下さい。 -- 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。 -- 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。 +++ ダウンロードしたファイルを解凍すると,WikipediaHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。 Corpora フォルダ ... 『Wikipedia』データを格納したフォルダ config_wikipedia.xml ... 設定ファイル (01 / 09 の場合) config_wikipedia_all.xml ... 設定ファイル (02〜09 / 09 の場合⇒01 〜 09 / 09 が検索対象になります) +++ 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中にコピーしてください。 --- Windows の場合,上書きの確認がでるかもしれませんが,そのまま続行してください。 --- &color(red){Mac の場合,上書きすると,元あったフォルダの内容が消えてしまうので,Corpora フォルダの中身を個別にコピーして下さい。}; 以上で,インストールは終了です。 なお,インストール直後は,01/09版はconfig_wikipedia.xml,02〜09/09 版は,config_wikipedia_all.xml が『ひまわり』に読み込まれた状態になります。 ** 検索 [#xd38c47d] - 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_wikipedia.xml,もしくは,config_wikipedia_all.xml) を読み込んでください。 -- Windows をお使いの方は,検索状況を確認するために,himawari_debug.exe を利用することをお勧めします。 - 検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。 *謝辞 [#xc4d4323] 記事の著者,Wikipedia の運営者の方々,[[Wikipedia Extractor>http://medialab.di.unipi.it/wiki/Wikipedia_Extractor]]の著者に心より感謝いたします。 *アンケート [#k4e41071] #html{{ <div style="text-align:center"> <iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UQlEwNjk2WkpKRFpXNEtMQ1I3UE1TTzFVTi4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe> </div> }}