[[全文検索システム『ひまわり』]] //&size(25){&color(red){本ページは構築中です};}; *『Wikipedia』パッケージの概要 [#ec8e3188] 本パッケージは,[[『Wikipedia日本語版』>http://ja.wikipedia.org/wiki/]]の記事(10万)を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。 //まずは,ランダムに抽出した10万記事を公開します。 *収録データの内容 [#o33facbc] - サイト [[『Wikipedia日本語版』>http://ja.wikipedia.org/wiki/]] - 収録記事 -- Wikipedia が公開している[[データベース>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータを使用)に収録されている約88万記事からランダムに選択した10万記事 - テキストの抽出方法 -- [[Wikipedia Extractor>http://medialab.di.unipi.it/wiki/Wikipedia_Extractor]] (ver.2.5) によりテキスト部分を抽出 --- 実行時のオプションは,"-sl" を指定(詳細は,マニュアルページを参照のこと)。抽出時に図表や(Wikipediaの)テンプレートなどの要素は削除されるので注意されたい。 --- 記事に該当するタグ(doc タグ)以外は削除 --- 過度なクリーニング処理((日本語に適用した場合,リストの項目が一部出力されないなどの問題があるようです。))の抑制,タイトルの2重出力の処理を補正するために一部スクリプトを修正した -- いわゆる半角文字を全角文字に統一 *ダウンロード [#g26eb865] - [[『Wikipedia』パッケージ(β版,10万記事)>http://csd.ninjal.ac.jp/archives/wikipedia_himawari_20131107.zip]](圧縮時約679MB,解凍時約910MB, ZIP形式,[[履歴>./履歴]]) // //- [[『青空文庫』パッケージ>https://docs.google.com/open?id=0B3ugrVEv6NiAR1R6X2tueHR2SWs]](圧縮時約599MB,解凍時約882MB, ZIP形式) -- &color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。}; -- 本パッケージは,Wikipedia が公開している[[データベース>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータ)の派生物です。ライセンスは,オリジナルデータのライセンス「[[クリエイティブ・コモンズ 表示-継承 3.0 非移植>http://creativecommons.org/licenses/by-sa/3.0/deed.ja]]」に準じます。 #html{{ <br /> <a rel="license" href="http://creativecommons.org/licenses/by-sa/3.0/deed.ja"><img alt="クリエイティブ・コモンズ・ライセンス" style="border-width:0" src="http://i.creativecommons.org/l/by-sa/3.0/88x31.png" /></a> }} -- 本パッケージは無保証です。本パッケージを利用したことにより生じる,いかなる損害も保証しません。 -- &color(red){よろしければ,ページ末のアンケートの「ご意見・ご感想」欄にて,動作環境(OS名,バージョン, 搭載メモリサイズ),動作の可否をご報告下さい。全データ公開時の参考にいたします。};なお,以下の環境で動作確認をしています。 --- Ubuntu 12.04 (64bit), メモリ8GB --- Windows7 (64bit) , メモリ4GB --- Windows7 (32bit) , メモリ2GB -『Wikipedia』パッケージ残り(β版,約78万記事)(圧縮時約MB,解凍時約MB, ZIP形式,[[履歴>./履歴]]) -- 『Wikipedia』パッケージ(10万ページ)をインストールし,動作確認後に,インストールして下さい。 -- 『Wikipedia』パッケージ(10万記事)をインストールし,動作確認後に,インストールして下さい。 *使用方法 [#lcd27131] ** インストール方法 [#ad87ca23] -[[『ひまわり』>全文検索システム『ひまわり』]](ver.1.3以上)をインストールしてください。 - ダウンロードしたファイルを解凍すると,WikipediaHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。 Corpora フォルダ ... 『Wikipedia』データを格納したフォルダ config_wikipedia.xml ... 設定ファイル - 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中に移動してください。上書きの確認がでるかもしれませんが,そのまま続行してください。 - 以上で,インストールは終了です。 ** 検索 [#xd38c47d] 『ひまわり』を起動し,[ファイル]→[新規]で,設定ファイル(config_wikipedia.xml) を読み込んでください。検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。 *アンケート [#u7dd9448] よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。 #qa1(masaya,masaya,[himawari-wikipedia_20131107],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81) *謝辞 [#xc4d4323] 記事の著者,Wikipedia の運営者の方々,[[Wikipedia Extractor>http://medialab.di.unipi.it/wiki/Wikipedia_Extractor]]の著者に心より感謝いたします。