国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
[[全文検索システム『ひまわり』]] &size(25){&color(red){本ページは構築中です};}; *『Wikipedia』パッケージの概要 [#ec8e3188] 本パッケージは,[[『Wikipedia日本語版』>http://ja.wikipedia.org/wiki/]]の記事を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。まずは,ランダムに抽出した10万記事を公開します。 *収録データの内容 [#o33facbc] - サイト:[[『Wikipediea日本語版』>http://ja.wikipedia.org/wiki/]] - 収録記事 -- Wikipedia が公開している[[データベース>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータを使用)に収録されている約88万記事から10万記事をランダムに選択 - テキストの抽出方法 -- [[Wikipedia Extractor>http://medialab.di.unipi.it/wiki/Wikipedia_Extractor]] (ver.2.5) によりテキスト部分を抽出 --- 図表やテンプレートなどは削除される --- 過度なクリーニング処理の抑制,タイトルの2重出力の処理を補正するために一部スクリプトを修正した -- いわゆる半角文字は全角文字に統一 *ダウンロード [#g26eb865] // - [[『青空文庫』パッケージ>http://csd.ninjal.ac.jp/archives/aozora_himawari_20130927.zip]](圧縮時約693MB,解凍時約1000MB, ZIP形式,[[履歴>./履歴]]) // //- [[『青空文庫』パッケージ>https://docs.google.com/open?id=0B3ugrVEv6NiAR1R6X2tueHR2SWs]](圧縮時約599MB,解凍時約882MB, ZIP形式) -- 本パッケージは,Wikipedia が公開している[[データベース>http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89]](2013-11-07時点のデータ)の派生物です。ライセンスは,オリジナルデータのライセンス「クリエイティブ・コモンズ 表示-継承 3.0 非移植」に準じます。 -- 本パッケージは無保証です。本パッケージを利用したことにより生じる,いかなる損害も保証しません。 // -- &color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。}; // *使用方法 [#lcd27131] // ** インストール方法 [#ad87ca23] // -[[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。なお,ver.1.3 では,一部の機能を利用できません。 // - ダウンロードしたファイルを解凍すると,AozoraHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。 // Corpora フォルダ ... 『青空文庫』データを格納したフォルダ // config_aozora.generic.xml ... 設定ファイル(ver.1.3, 1.5 共用) // config_aozora.xml ... 設定ファイル(ver.1.5 用メモ機能付) // config_aozora.db.xml ... 設定ファイル(ver.1.5 用メモ機能・形態素解析結果の利用) // - 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中に移動してください。上書きの確認がでるかもしれませんが,そのまま続行してください。 // - 以上で,インストールは終了です。 // ** 検索 [#xd38c47d] // 『ひまわり』を起動し,[ファイル]→[新規]で,設定ファイル(ver.1.3をお使いの方は,config_aozora.generic.xml) を読み込んでください。なお,設定ファイルは,上記のとおり,3種類を収録していますので,適宜使い分けてください。検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。 // -書誌情報は,基本的に[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended.zip]](2013-09-27時点のデータを使用)に準じます。 // -- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。 // >>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL) // -- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。 // ---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」 // ---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」 // -- 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。 // - 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。 // ** 進んだ使い方(冒険者向け) [#g5863428] // ここでは,『ひまわり』の自動アノテーション機能を用いて,形態素解析結果を利用する方法を示します。次の点にご注意ください。 // - 形態素解析結果の取り込みには,高速なCPU,大量のメモリ,ハードディスクを持ったPCが必要となります。 // - 形態素解析結果の取り込み,検索には,時間がかかる可能性があります。 // - 参考 // -- データサイズ // --- 約23GB (本パッケージのデータも含む) // --- なお,総形態素数は91241205 // -- 検証環境によるアノテーションの実行結果 // --- Ubuntu 12.04 (CPU: Intel Xeon E5520 2.27GHz, Memory: 8GB) + MeCab(ver.0.994, IPADIC) ... 約15時間 // --- Windows 7 (CPU: Intel Corei5 2.6GHz, Memory: 8GB) + MeCab(ver.0.98, IPADIC) ... 約18時間 // 形態素解析結果の取り込み手順は,次のとおりです。なお,詳細,および,使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_5/6.言語資料にアノテーションする#q6041ade]]を参照してください。 // + 『ひまわり』(ver.1.5以上)をインストールしてください。 // + 形態素解析システム(JUMAN もしくは MeCab)をインストールしてください。 // + 『ひまわり』を起動してください。ただし,Windows の場合は,himawari_debug.exe を使用し,処理が進んでいるか,監視しつつ,実行することをお勧めします。 // + 設定ファイル config_aozora.db.xml を読み込んで下さい。 // + [ツール]→[アノテーション]→[外部プログラム]から,形態素解析システムを選択してください。実行速度の点からは,MeCabを利用することをお勧めします。 // + 完了です。 *アンケート [#u7dd9448] よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。 #qa1(masaya,masaya,[himawari-wikipedia_20131111],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81) *謝辞 [#xc4d4323] 記事の著者,Wikipedia の運営者の方々に心より感謝いたします。