[PukiWiki]

全文検索システム『ひまわり』/ダウンロード/『青空文庫TOP100』パッケージ の履歴差分(No.3)


  • 履歴一覧
  • 現在との差分 を表示
  • ソース を表示
  • 履歴 を表示
  • 全文検索システム『ひまわり』/ダウンロード/『青空文庫TOP100』パッケージ へ行く。
    • 1 (2018-01-26 (金) 15:32:19)
    • 2 (2018-01-26 (金) 15:43:25)
    • 3 (2018-01-26 (金) 16:02:18)
    • 4 (2018-01-26 (金) 16:09:52)
    • 5 (2018-01-26 (金) 16:10:49)
    • 6 (2018-01-26 (金) 16:10:49)
    • 7 (2018-01-26 (金) 16:10:49)
    • 8 (2018-01-29 (月) 22:02:51)
    • 9 (2018-01-30 (火) 14:21:10)
    • 10 (2018-01-30 (火) 15:54:28)
    • 11 (2018-01-30 (火) 15:55:08)
    • 12 (2018-01-30 (火) 16:08:36)
    • 13 (2018-01-30 (火) 16:21:04)
    • 14 (2018-01-30 (火) 16:32:46)
    • 15 (2018-01-30 (火) 16:44:41)
    • 16 (2018-01-30 (火) 16:46:52)
    • 17 (2018-01-30 (火) 16:47:50)
    • 18 (2018-01-30 (火) 16:54:27)
    • 19 (2018-01-30 (火) 16:56:21)
    • 20 (2018-01-30 (火) 16:58:53)
    • 21 (2018-01-30 (火) 16:59:14)
    • 22 (2018-01-30 (火) 17:00:27)
    • 23 (2018-01-30 (火) 17:02:51)
    • 24 (2018-01-30 (火) 17:12:04)
    • 25 (2018-01-30 (火) 17:12:42)
    • 26 (2018-01-30 (火) 17:19:30)
    • 27 (2018-01-30 (火) 20:56:30)
    • 28 (2018-01-30 (火) 20:56:30)
    • 29 (2018-04-05 (木) 13:51:29)
    • 30 (2018-04-05 (木) 09:00:00)
    • 31 (2020-03-11 (水) 22:23:44)
    • 32 (2020-03-11 (水) 22:25:38)
    • 33 (2020-03-12 (木) 03:03:20)
    • 34 (2020-05-13 (水) 03:06:17)
    • 35 (2020-05-12 (火) 18:06:41)
    • 36 (2021-09-07 (火) 15:27:49)

  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[全文検索システム『ひまわり』]]


&color(red){&size(25){本ページは構築中です。};};

RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2018-xx-xx
#br

*『青空文庫TOP100』パッケージの概要 [#ec8e3188]
 本パッケージは,[[『青空文庫』>http://www.aozora.gr.jp/]]のの作品(13606作品)を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。また,[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended.zip]]や作品に含まれる文字数などの情報を取り込んでいます。

*収録データの内容 [#o33facbc]
- サイト:[[『青空文庫』>http://www.aozora.gr.jp/]]
- 収録作品
-- [[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip]](2017-10-01時点のデータを使用。リンク先は現在のものなので注意)から次の条件を満たす[[13606作品>http://csd.ninjal.ac.jp/archives/Aozora/aozora_list_20171001.xlsx]]
--- 著作権が切れていること
--- XHTML 版が存在し,かつ,『青空文庫』サイトから配布されていること
--- 『ひまわり』用にインポートできること
--- なお,底本が複数ある作品は,「文字遣い種別」が新字,新仮名の作品を優先しました

- 原資料からの変更点
-- 『ひまわり』のインポート機能を利用し,『ひまわり』用のデータに変換しています。
-- 変換時に本文には変更を加えていませんが,インポート後,画像で表現されている外字(サロゲートペアによる文字は除く)を文字に変換しています。
-- ルビ,注記などの付与情報についても,基本的に改変を加えていませんが,『ひまわり』用のデータ形式の関係上,反映できなかった情報(例:head要素中の書誌情報)もあります。

*使用条件 [#te59028f]
- 本パッケージの使用条件は,[[青空文庫収録ファイルの取り扱い規準>http://www.aozora.gr.jp/guide/kijyunn.html]]に準じます。
- 本ページで公開しているパッケージを利用したことにより直接的,間接的に生じる,いかなる損害も保証しません。


*ダウンロード [#g26eb865]
//  20160401は,旧版から一部仕様に変更があります。旧版を利用している方は,必ず[[履歴>./履歴]]をご確認下さい。なお,問題があれば,[[履歴>./履歴]]のページ末に旧バージョンへのリンクがありますので,そちらを利用して下さい。

- [[『青空文庫』パッケージ(20171001)>http://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_20171001.zip]](圧縮時約811MB,解凍時約1.2GB, ZIP形式,[[履歴・旧バージョン>./履歴]])
//- [[『青空文庫』パッケージ>https://docs.google.com/open?id=0B3ugrVEv6NiAR1R6X2tueHR2SWs]](圧縮時約599MB,解凍時約882MB, ZIP形式)
//-- &color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。};
//-- 20130927版 を ver.1.5でも使えるように,設定ファイルを修正しました(現在,公開しているパッケージ20130927_01版はそのまま使えます)。収録されている作品に変更はありません。[[差分>http://csd.ninjal.ac.jp/archives/aozora_himawari_20130927_01_diff.zip]]をダウンロード・解凍し,内容(Corporaフォルダ,各種config_xxx.xml)を『ひまわり』がインストールされているフォルダにコピーして下さい。
#br
- [[(通常版) 形態素解析結果追加パッケージ>http://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_20171001_db.7z]] (圧縮時約1.1GB,解凍時約6.3GB, 7z形式)
//-- &color(red){4月6〜10日にかけて,ダウンロードした方はお手数ですが,ファイルの更新をお願いいたします。};該当ファイル名はaozora_himawari_20170401_db.7z,最新版は日付部分が20170401aとしてあります。誤って,青空文庫の本文以外(著作権情報など)も形態素解析対象になっていました。大変失礼しました。
-- &color(red){利用には};,上記の『青空文庫』パッケージと[[『ひまわり』ver.1.5>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.5]]が必要です。
-- 収録作品を [[MeCab>http://taku910.github.io/mecab/]] (ver.0.996) で形態素解析した結果です。
-- 『ひまわり』ver.1.5に標準で付属している「青空文庫サンプル」と同様,当該検索文字列の前後2形態素が表示されます。検索には時間がかかるため,じっくり分析する人向けです。
-- ファイルは,7z形式で圧縮されています。OS標準の機能では,解凍できません。[[7-Zip>http://sevenzip.sourceforge.jp/download.html]],[[7-Zip Portable>http://portableapps.com/apps/utilities/7-zip_portable]]などを利用して,解凍して下さい。
- [[(ver.1.6専用) 形態素解析結果追加パッケージ>http://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_morph_20171001.zip]] (圧縮時約964MB,解凍時約1.8GB, zip形式)
-- 上記の通常版と内容に違いはありませんが,『ひまわり』&color(red){ver.1.6専用};です。検索の高速化,パッケージサイズの軽量化が図られています。
-- 圧縮形式もzipなので,他のパッケージと同様ドラッグ&ドロップでインストール可能です。
-- ただし,ver.1.6は現在開発版なので,&color(red){通常版よりも不具合を多く含む可能性があります。};


*使用方法 [#lcd27131]
** インストール方法 [#ad87ca23]
+ [[『ひまわり』>全文検索システム『ひまわり』]](ver.1.5以降)をインストールしてください。
+ 『青空文庫』パッケージをダウンロードし,次の手順でインストールして下さい。
-- 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
-- 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。
--- ダウンロードしたファイルを解凍すると,AozoraHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。
  Corpora フォルダ ... 『青空文庫』データを格納したフォルダ
  config_aozora.xml ... 設定ファイル(ver.1.3, 1.5共用)
  config_aozora.db.xml ... 設定ファイル(ver.1.5専用;メモ機能・形態素解析結果の利用)
--- 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中にコピーしてください。ただし,コピー時は「統合」オプションを使うなど,元あったフォルダが消えないように気をつけてください。
//-- Windows の場合,上書きの確認がでるかもしれませんが,そのまま続行してください。
//-- &color(red){Mac の場合,上書きすると,元あったフォルダの内容が消えてしまうので,Corpora フォルダの中身を個別にコピーして下さい。};
+ 形態素解析結果追加パッケージをインストールする場合
-- (従来版追加パッケージ)パッケージをダウンロード・解凍後,himawari.h2.db を 『ひまわり』フォルダの中の Corpora/Aozora/ フォルダにコピーして下さい。
-- (1.6専用追加パッケージ) ダウンロードした追加パッケージを起動している『ひまわり』にドラッグ&ドロップして,インストールして下さい。
+ [[『ひまわり』>全文検索システム『ひまわり』]](ver.1.6以降)をインストールしてください。
+ 『青空文庫』パッケージをダウンロードし,ダウンロードしたzipファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。

 以上で,インストールは終了です。

 次回以降は,『ひまわり』フォルダにインストールされた設定ファイル(config_aozora.xmlかconfig_aozora_db.xmlなど)を以下「検索」の説明にしたがって読み込んで下さい。
// 次回以降は,『ひまわり』フォルダにインストールされた設定ファイル(config_aozora.xmlかconfig_aozora_db.xmlなど)を以下「検索」の説明にしたがって読み込んで下さい。

 なお,検索時にメモリ関連のエラーが出る場合は,[[FAQの「メモリ関連のエラーが出ます」>全文検索システム『ひまわり』/FAQ#efb0e87d]]の対処方法をお試し下さい。


** 検索 [#xd38c47d]
 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_aozora.xmlかconfig_aozora_db.xml) を読み込んでください。なお,設定ファイルは,上記のとおり,2種類を収録していますので,適宜使い分けてください。検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。
// 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_aozora.xmlかconfig_aozora_db.xml) を読み込んでください。なお,設定ファイルは,上記のとおり,2種類を収録していますので,適宜使い分けてください。検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。

-書誌情報は,基本的に[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip]](2016-04-01時点のデータを使用。リンク先は現在のものなので注意)に準じます。
-- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。
>>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL)
//-書誌情報は,基本的に[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip]](2016-04-01時点のデータを使用。リンク先は現在のものなので注意)に準じます。
//-- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。
//>>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL)

-- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。
---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」
---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」
-- 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。
- 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。
- 収録作品のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一覧]を実行して下さい。
//-- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。
//---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」
//---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」
//-- 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。
//- 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。
//- 収録作品のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一覧]を実行して下さい。

** 形態素解析結果追加パッケージの利用 [#vad8871b]
- 通常版
-- 検索時には,config_aozora.db.xml を読み込んでください。
-- 使用方法は,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_5/6.言語資料にアノテーションする]]をご覧ください。
-- config_aozora.xml と同様,全文検索機能もそのまま使えますが,検索速度は落ちます。
- ver.1.6専用版
-- 検索時には,config_aozora.sd.xml を読み込んでください。それ以外は,通常版と同様です。





*アンケート [#u7dd9448]
 よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。

#qa1(masaya,masaya,[himawari-aozora_top100],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)


*謝辞 [#xc4d4323]
 収録作品の著者の方々,有益なデータを提供してくださる青空文庫の運営者,工作員の方々に心より感謝いたします。


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS