#author("2021-09-07T15:22:55+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] &size(25){&color(red){本ページは構築中です};}; //&size(25){&color(red){本ページは構築中です};}; *『Wikipedia』パッケージの概要 [#ec8e3188] 本パッケージは,[[『Wikipedia日本語版』>http://ja.wikipedia.org/wiki/]]の記事を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。まずは,ランダムに抽出した10万記事を公開します。 本パッケージは,[[『Wikipedia日本語版』>http://ja.wikipedia.org/wiki/]]の記事(88万)を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。 //まずは,ランダムに抽出した10万記事を公開します。 *収録データの内容 [#o33facbc] - サイト:[[『Wikipediea日本語版』>http://ja.wikipedia.org/wiki/]] - サイト [[『Wikipedia日本語版』>http://ja.wikipedia.org/wiki/]] - 収録記事 -- [[データベースダウンロード>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータを使用)に収録されている約88万記事から10万記事をランダムに選択 -- Wikipedia が公開している[[データベース>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータを使用)に収録されている約88万記事 -- 全記事をランダムに並び替え,10万記事ごとに分割し,計9個のコーパスとしています。 -- パッケージの配布は,最初の10万記事(01/09)と残りの約78万記事(02〜09 / 09)の二つです。 - テキストの抽出方法 -- [[Wikipedia Extractor>http://medialab.di.unipi.it/wiki/Wikipedia_Extractor]] (ver.2.5) によりテキスト部分を抽出 --- 図表やテンプレートなどは削除される --- 過度なクリーニング処理の抑制,タイトルの2重出力の処理を補正するために一部スクリプトを修正した -- いわゆる半角文字は全角文字に統一 --- 実行時のオプションは,"-sl" を指定(詳細は,マニュアルページを参照のこと)。抽出時に図表や(Wikipediaの)テンプレートなどの要素は削除されるので注意されたい。 --- 記事に該当するタグ(doc タグ)以外は削除 --- 過度なクリーニング処理((日本語に適用した場合,リストの項目が一部出力されないなどの問題があるようです。))の抑制,タイトルの2重出力の処理を補正するために一部スクリプトを修正した -- いわゆる半角文字を全角文字に統一 *ダウンロード [#g26eb865] // - [[『青空文庫』パッケージ>http://csd.ninjal.ac.jp/archives/aozora_himawari_20130927.zip]](圧縮時約693MB,解凍時約1000MB, ZIP形式,[[履歴>./履歴]]) ** パッケージ [#g637ced3] - [[『Wikipedia』パッケージ 01/09 (20160212β版,10万記事)>http://csd.ninjal.ac.jp/archives/Wikipedia/wikipedia_himawari_20131107_rev20160212.zip]](圧縮時約679MB,解凍時約910MB, ZIP形式,[[履歴>./履歴]]) - [[『Wikipedia』パッケージ 02〜09 / 09 (20160212β版,約78万記事)>http://csd.ninjal.ac.jp/archives/Wikipedia/wikipedia_himawari_20131107_all_rev20160212.zip]](圧縮時約5.5GB,解凍時約7.4GB, ZIP形式,[[履歴>./履歴]]) -- 02〜09 / 09を使うには,事前に01/09をインストールしてある必要があります。 -- 検索にはメモリを大量に消費しますので,まずは01/09が動作するか確かめて下さい。 //- &color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。}; // //- [[『青空文庫』パッケージ>https://docs.google.com/open?id=0B3ugrVEv6NiAR1R6X2tueHR2SWs]](圧縮時約599MB,解凍時約882MB, ZIP形式) // //-- 使用条件は,[[青空文庫収録ファイルの取り扱い規準>http://www.aozora.gr.jp/guide/kijyunn.html]]に準じます。また,本パッケージを利用したことにより生じる,いかなる損害も保証しません。 // -- &color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。}; // *使用方法 [#lcd27131] // ** インストール方法 [#ad87ca23] // -[[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。なお,ver.1.3 では,一部の機能を利用できません。 // - ダウンロードしたファイルを解凍すると,AozoraHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。 // Corpora フォルダ ... 『青空文庫』データを格納したフォルダ // config_aozora.generic.xml ... 設定ファイル(ver.1.3, 1.5 共用) // config_aozora.xml ... 設定ファイル(ver.1.5 用メモ機能付) // config_aozora.db.xml ... 設定ファイル(ver.1.5 用メモ機能・形態素解析結果の利用) // - 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中に移動してください。上書きの確認がでるかもしれませんが,そのまま続行してください。 // - 以上で,インストールは終了です。 ** ライセンス・実行時の注意など [#l49a31e4] - 本パッケージは,Wikipedia が公開している[[データベース>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータ)の派生物です。ライセンスは,オリジナルデータのライセンス「[[クリエイティブ・コモンズ 表示-継承 3.0 非移植>http://creativecommons.org/licenses/by-sa/3.0/deed.ja]]」に準じます。 #html{{ <br /> <a rel="license" href="http://creativecommons.org/licenses/by-sa/3.0/deed.ja"><img alt="クリエイティブ・コモンズ・ライセンス" style="border-width:0" src="http://i.creativecommons.org/l/by-sa/3.0/88x31.png" /></a> }} - 本パッケージは無保証です。本パッケージを利用したことにより生じる,いかなる損害も保証しません。 - 以下の環境で動作確認をしています。ただし,検索条件,他に起動しているアプリケーションなどにより,メモリが不足する場合があるかもしれません。よろしければ,ページ末のアンケートの「ご意見・ご感想」欄にて,動作環境(OS名,バージョン, 搭載メモリサイズ),動作の可否をご報告下さい。 -- Ubuntu 12.04 (64bit), メモリ8GB -- Windows7 (64bit) , メモリ4GB -- Windows7 (32bit) , メモリ2GB (02〜09 / 09 ではメモリ不足が多発) // ** 検索 [#xd38c47d] // 『ひまわり』を起動し,[ファイル]→[新規]で,設定ファイル(ver.1.3をお使いの方は,config_aozora.generic.xml) を読み込んでください。なお,設定ファイルは,上記のとおり,3種類を収録していますので,適宜使い分けてください。検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。 // -書誌情報は,基本的に[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended.zip]](2013-09-27時点のデータを使用)に準じます。 // -- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。 // >>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL) *使用方法 [#lcd27131] ** インストール方法 [#ad87ca23] + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。 + パッケージをダウンロードし,次の手順でインストールして下さい。 -- 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。 -- 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。 +++ ダウンロードしたファイルを解凍すると,WikipediaHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。 Corpora フォルダ ... 『Wikipedia』データを格納したフォルダ config_wikipedia.xml ... 設定ファイル (01 / 09 の場合) config_wikipedia_all.xml ... 設定ファイル (02〜09 / 09 の場合⇒01 〜 09 / 09 が検索対象になります) +++ 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中にコピーしてください。 --- Windows の場合,上書きの確認がでるかもしれませんが,そのまま続行してください。 --- &color(red){Mac の場合,上書きすると,元あったフォルダの内容が消えてしまうので,Corpora フォルダの中身を個別にコピーして下さい。}; // -- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。 // ---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」 // ---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」 // -- 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。 // - 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。 以上で,インストールは終了です。 // ** 進んだ使い方(冒険者向け) [#g5863428] // ここでは,『ひまわり』の自動アノテーション機能を用いて,形態素解析結果を利用する方法を示します。次の点にご注意ください。 なお,インストール直後は,01/09版はconfig_wikipedia.xml,02〜09/09 版は,config_wikipedia_all.xml が『ひまわり』に読み込まれた状態になります。 // - 形態素解析結果の取り込みには,高速なCPU,大量のメモリ,ハードディスクを持ったPCが必要となります。 // - 形態素解析結果の取り込み,検索には,時間がかかる可能性があります。 // - 参考 // -- データサイズ // --- 約23GB (本パッケージのデータも含む) // --- なお,総形態素数は91241205 // -- 検証環境によるアノテーションの実行結果 // --- Ubuntu 12.04 (CPU: Intel Xeon E5520 2.27GHz, Memory: 8GB) + MeCab(ver.0.994, IPADIC) ... 約15時間 // --- Windows 7 (CPU: Intel Corei5 2.6GHz, Memory: 8GB) + MeCab(ver.0.98, IPADIC) ... 約18時間 ** 検索 [#xd38c47d] - 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_wikipedia.xml,もしくは,config_wikipedia_all.xml) を読み込んでください。 -- Windows をお使いの方は,検索状況を確認するために,himawari_debug.exe を利用することをお勧めします。 - 検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。 // 形態素解析結果の取り込み手順は,次のとおりです。なお,詳細,および,使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_5/6.言語資料にアノテーションする#q6041ade]]を参照してください。 *謝辞 [#xc4d4323] 記事の著者,Wikipedia の運営者の方々,[[Wikipedia Extractor>http://medialab.di.unipi.it/wiki/Wikipedia_Extractor]]の著者に心より感謝いたします。 // + 『ひまわり』(ver.1.5以上)をインストールしてください。 // + 形態素解析システム(JUMAN もしくは MeCab)をインストールしてください。 // + 『ひまわり』を起動してください。ただし,Windows の場合は,himawari_debug.exe を使用し,処理が進んでいるか,監視しつつ,実行することをお勧めします。 // + 設定ファイル config_aozora.db.xml を読み込んで下さい。 // + [ツール]→[アノテーション]→[外部プログラム]から,形態素解析システムを選択してください。実行速度の点からは,MeCabを利用することをお勧めします。 // + 完了です。 *アンケート [#k4e41071] #html{{ <div style="text-align:center"> <iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UQlEwNjk2WkpKRFpXNEtMQ1I3UE1TTzFVTi4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe> </div> }} // *アンケート [#u7dd9448] // よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。 // #qa1(masaya,masaya,[himawari-aozora_20130401],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81) // *謝辞 [#xc4d4323] // // 収録作品の著者の方々,有益なデータを提供してくださる青空文庫の運営者,工作員の方々に心より感謝いたします。