#author("2024-04-01T15:30:49+09:00","external:fishwatchr2@gmail.com","fishwatchr2@gmail.com") #author("2024-04-01T15:31:37+09:00","external:fishwatchr2@gmail.com","fishwatchr2@gmail.com") [[全文検索システム『ひまわり』]] //&color(red){&size(20){国語研究所の施設整備に伴い,サービスを次の期間,停止します。 2017年10月27日(金)18:00〜10月30日(月)10:00};}; //- &color(red){&size(20){国語研究所の施設整備に伴い,『ひまわり』および関連資料のダウンロードサービスを次の期間,停止します。 2016年10月21日(金)17:30〜10月24日(月)10:00 };}; //&size(18){&color(red){本ページのアンケートにてご連絡いただいいた方: 連絡先がわかりませんので,[[こちら(使用上の注意とお願い)>../../#xf63353e]]からご連絡ください。};}; //&size(18){&color(red){現在作業中です};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2024-04-01 #br *『青空文庫』パッケージの概要 [#ec8e3188] 本パッケージは,[[『青空文庫』>https://www.aozora.gr.jp/]]の作品(16429作品)を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。また,[[「作家別作品一覧拡充版」>https://www.aozora.gr.jp/index_pages/list_person_all_extended.zip]]や作品に含まれる文字数などの情報を取り込んでいます。 *収録データの内容 [#o33facbc] - サイト:[[『青空文庫』>https://www.aozora.gr.jp/]] - 収録作品,および,関連データ -- [[「作家別作品一覧拡充版」>https://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip]](2024-04-01時点のデータを使用。リンク先は現在のものなので注意)から次の条件を満たす[[16429作品>https://csd.ninjal.ac.jp/archives/Aozora/aozora_list_20240401.xlsx]] --- 著作権が切れていること --- XHTML 版が存在し,かつ,『青空文庫』サイトから配布されていること --- 『ひまわり』用にインポートできること --- なお,底本が複数ある作品は,「文字遣い種別」が新字,新仮名の作品を優先しました -- [[「作家別作品一覧拡充版」>https://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip]]から作品,著者などに関する情報を取り込んでいます。 --- ただし,分類番号が空欄の場合は,「青空文庫 分野別リスト」(https://yozora.main.jp/)で公開されている[[「分類データ」>https://yozora.main.jp/zip/bunrui.zip]](bunrui.zip, 2024-04-01参照)を利用させていただきました。 -- 「作家別作品一覧拡充版」,「分類データ」は,共に「[[クリエイティブ・コモンズ 表示 4.0 国際 ライセンス>https://creativecommons.org/licenses/by/4.0/deed.ja]]」のもとで利用させていただいています。 --- - 原資料からの変更点 -- 『ひまわり』のインポート機能を利用し,『ひまわり』用のデータに変換しています。 -- 変換時に本文には変更を加えていませんが,次の文字変換をしています。 --- 画像で表現されている外字を文字に変換 --- いわゆる半角文字を全角文字に変換 -- ルビ,注記などの付与情報についても,基本的に改変を加えていませんが,『ひまわり』用のデータ形式の関係上,反映できなかった情報(例:head要素中の書誌情報)もあります。 *使用条件 [#te59028f] - 本パッケージの使用条件は,[[青空文庫収録ファイルの取り扱い規準>https://www.aozora.gr.jp/guide/kijyunn.html]]に準じます。 - 本ページで公開しているパッケージを利用したことにより直接的,間接的に生じる,いかなる損害も保証しません。 - 本ページの成果物を論文などで引用される場合は,[[成果物の短縮URL]]を参照して下さい。 *ダウンロード [#g26eb865] // 20160401は,旧版から一部仕様に変更があります。旧版を利用している方は,必ず[[履歴>./履歴]]をご確認下さい。なお,問題があれば,[[履歴>./履歴]]のページ末に旧バージョンへのリンクがありますので,そちらを利用して下さい。 - 『青空文庫』パッケージ(20240401) ([[履歴・旧バージョン>./履歴]]) -- [[日本文学/小説(ndc913)>https://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_ndc913_20240401.zip]] (圧縮時約537MB,解凍時約795MB, ZIP形式) -- [[日本文学/小説以外(except_ndc913)>https://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_except_ndc913_20240401.zip]](圧縮時約481MB,解凍時約752MB, ZIP形式) //--- &color(red){注意(2021-10-04)};: 2021-01-08以降に青空文庫で公開された作品については,分類番号(NDC)が付与されていないものが含まれています。&color(red){それらの作品は,機械的に「日本文学/小説以外(except_ndc913)」に収録されています。};作品の分類番号を利用した分析を行う場合は,検索結果の「分類番号」欄などの情報に注意してください。 //--- &color(red){注意(2021-10-04)};: 必要に応じて,[[旧版>./履歴#p20172ad]](20201001版など)をご利用ください。 --- NDC分類は,『青空文庫』の[[分野別リスト>http://yozora.main.jp/index.html]]に基づいています。 --- 童話は,日本文学/小説以外(except_ndc913)に収録されています。 --- 従来版のようにすべてを一括して検索する場合は,両方をインストールして下さい。 //- [[『青空文庫』パッケージ>https://docs.google.com/open?id=0B3ugrVEv6NiAR1R6X2tueHR2SWs]](圧縮時約599MB,解凍時約882MB, ZIP形式) //-- &color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。}; //-- 20130927版 を ver.1.5でも使えるように,設定ファイルを修正しました(現在,公開しているパッケージ20130927_01版はそのまま使えます)。収録されている作品に変更はありません。[[差分>http://csd.ninjal.ac.jp/archives/aozora_himawari_20130927_01_diff.zip]]をダウンロード・解凍し,内容(Corporaフォルダ,各種config_xxx.xml)を『ひまわり』がインストールされているフォルダにコピーして下さい。 //- [[(通常版) 形態素解析結果追加パッケージ>http://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_20171001_db.7z]] (圧縮時約1.1GB,解凍時約6.3GB, 7z形式) //-- &color(red){4月6〜10日にかけて,ダウンロードした方はお手数ですが,ファイルの更新をお願いいたします。};該当ファイル名はaozora_himawari_20170401_db.7z,最新版は日付部分が20170401aとしてあります。誤って,青空文庫の本文以外(著作権情報など)も形態素解析対象になっていました。大変失礼しました。 //-- &color(red){利用には};,上記の『青空文庫』パッケージと[[『ひまわり』ver.1.5>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.5]]が必要です。 //-- 収録作品を [[MeCab>http://taku910.github.io/mecab/]] (ver.0.996) で形態素解析した結果です。 //-- 『ひまわり』ver.1.5に標準で付属している「青空文庫サンプル」と同様,当該検索文字列の前後2形態素が表示されます。検索には時間がかかるため,じっくり分析する人向けです。 //-- ファイルは,7z形式で圧縮されています。OS標準の機能では,解凍できません。[[7-Zip>http://sevenzip.sourceforge.jp/download.html]],[[7-Zip Portable>http://portableapps.com/apps/utilities/7-zip_portable]]などを利用して,解凍して下さい。 //--形態素解析結果追加パッケージ(&color(red){修正中};,[[履歴>./履歴]]) --[[形態素解析結果追加パッケージ>https://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_morph_20231001.zip]] (圧縮時約1.15GB,解凍時約2.15GB, zip形式) --[[形態素解析結果追加パッケージ>https://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_morph_20240401.zip]] (圧縮時約1.15GB,解凍時約2.15GB, zip形式) //--- &color(red){注意:};初回リリース後に修正(2022-04-02,[[履歴>./履歴]])を行いました。お手数ですが,追加パッケージのみ再インストールしてください。 --- 上記2パッケージをインストールしないと使えません。&color(red){パッケージのバージョンは必ず同一のものを利用して下さい。}; --- 収録作品を [[MeCab>http://taku910.github.io/mecab/]] (ver.0.996) で形態素解析した結果です。 //--- メモリを大量に使用するため,[[64bit版のJavaを利用する>全文検索システム『ひまわり』/FAQ#pe141e44]]ことをお勧めします。 //-- 『ひまわり』&color(red){ver.1.6専用};です。 //-- 上記の通常版と内容に違いはありませんが,『ひまわり』&color(red){ver.1.6専用};です。検索の高速化,パッケージサイズの軽量化が図られています。 //-- 圧縮形式もzipなので,他のパッケージと同様ドラッグ&ドロップでインストール可能です。 //-- ただし,ver.1.6は現在開発版なので,&color(red){通常版よりも不具合を多く含む可能性があります。}; *使用方法 [#lcd27131] ** インストール方法 [#ad87ca23] ([[ビデオ>https://youtu.be/6nZKGYVN-_c]]も用意しました。『ひまわり』自体の使い方は,[[ビデオチュートリアル一覧>全文検索システム『ひまわり』/ビデオチュートリアル]]を参照してください。) + [[『ひまわり』>全文検索システム『ひまわり』]](&color(red){ver.1.7.1以降};)をインストールしてください。 + 『ひまわり』を起動してください。 -- &color(red){Windows環境で,すでに『青空文庫』パッケージがインストールされている場合};,『ひまわり』起動時は,必ず,別の資料(『ひまわり』に標準で添付されている『青空文庫』サンプルなど)が読み込まれた状態にしてください。エラー表示なしに上書きインストールがうまくいかない場合があります。詳細な対処方法,[[バグ情報のページ>全文検索システム『ひまわり』/バグ情報#l8957445]]をご覧ください。 + 『青空文庫』パッケージをダウンロードし,ダウンロードしたファイルを,起動中の『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。 //-- 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。 //-- 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。 //--- ダウンロードしたファイルを解凍すると,AozoraHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。 // Corpora フォルダ ... 『青空文庫』データを格納したフォルダ // config_aozora.xml ... 設定ファイル(ver.1.3, 1.5共用) // config_aozora.db.xml ... 設定ファイル(ver.1.5専用;メモ機能・形態素解析結果の利用) //--- 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中にコピーしてください。ただし,コピー時は「統合」オプションを使うなど,元あったフォルダが消えないように気をつけてください。 //-- Windows の場合,上書きの確認がでるかもしれませんが,そのまま続行してください。 //-- &color(red){Mac の場合,上書きすると,元あったフォルダの内容が消えてしまうので,Corpora フォルダの中身を個別にコピーして下さい。}; + 形態素解析結果追加パッケージをインストールする場合は,ダウンロードした追加パッケージを起動している『ひまわり』にドラッグ&ドロップして,インストールして下さい。 //-- (従来版追加パッケージ)パッケージをダウンロード・解凍後,himawari.h2.db を 『ひまわり』フォルダの中の Corpora/Aozora/ フォルダにコピーして下さい。 //-- (1.6専用追加パッケージ) ダウンロードした追加パッケージを起動している『ひまわり』にドラッグ&ドロップして,インストールして下さい。 以上で,インストールは終了です。 次回以降は,[ファイル]⇒[コーパス選択]から選択できます。 // 次回以降は,『ひまわり』フォルダにインストールされた次の設定ファイルを[ファイル]→[新規],もしくは,『ひまわり』にドラッグ&ドロップして読み込んで下さい。『ひまわり』ver.1.6を使用している方は,[ファイル]⇒[コーパス選択]からも選択できます。 //|設定ファイル|説明|h //|config_aozora_ndc913.xml|日本文学/小説(ndc913)を検索する場合| //|config_aozora_except_ndc913.xml|日本文学/小説(ndc913)以外を検索する場合| //|config_aozora.xml|両方のパッケージを一括して検索する場合| //|config_aozora.sd.xml|両方のパッケージを一括して検索する場合(形態素解析結果付き)| // なお,検索時にメモリ関連のエラーが出る場合は,[[FAQの「メモリ関連のエラーが出ます」>全文検索システム『ひまわり』/FAQ#efb0e87d]]の対処方法をお試し下さい。 ** 検索 [#xd38c47d] - 検索方法は,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_7]]を参照してください。 // 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル を読み込んでください。なお,設定ファイルは,上記のとおり,いくつかの種類がありますので,適宜使い分けてください。検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。 -検索結果に含まれる書誌情報は,基本的に[[「作家別作品一覧拡充版」>https://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip]](リンク先は現在のものなので注意)に準じます。 -- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。 >>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL) -- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。 ---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」 ---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」 -- 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。 - 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。 //- 収録作品のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一覧]を実行して下さい。 ** 形態素解析結果追加パッケージの利用 [#vad8871b] //- 通常版 - 検索時には,[ファイル]⇒[コーパス選択]で,「外部DB」を「あり(sd)」にしてください。 //config_aozora.sd.xml を読み込んでください。 - 使用方法は,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_5/6.言語資料にアノテーションする#q6041ade]]をご覧ください。 - 「外部DB」が「なし」の場合と同様,全文検索機能もそのまま使えますが,検索速度は落ちます。 //- ver.1.6専用版 //-- 検索時には,config_aozora.sd.xml を読み込んでください。それ以外は,通常版と同様です。 ** 収録されている作品の一覧 [#b0004852] [ツール] → [一覧] → [作品別書誌情報一覧]を実行してください。 - 各作品の著者や底本の情報のほか,&color(red){収録文字数};についても記載されています。 - ([[ビデオ>https://youtu.be/Px3a0Co1AUk]]も用意しました) 一覧表には,『ひまわり』の[[集計機能>全文検索システム『ひまわり』/利用者マニュアル/1_6/5.検索結果を集計する]]が適用できるので,著者の異なりや,著者別の作品数を容易に集計できます。 - 単語数については,作品ごとに計測するための方法を[[ビデオ>https://youtu.be/c_V7mcA0Nv4]]で紹介しています。 // ** 進んだ使い方(冒険者向け) [#g5863428] // ここでは,『ひまわり』の自動アノテーション機能を用いて,形態素解析結果を利用する方法を示します。次の点にご注意ください。 // - 形態素解析結果の取り込みには,高速なCPU,大量のメモリ,ハードディスクを持ったPCが必要となります。 // - 形態素解析結果の取り込み,検索には,時間がかかる可能性があります。 // - 参考 // -- データサイズ(20120924版の値) // --- 約23GB (本パッケージのデータも含む) // --- なお,総形態素数は91241205 // -- 検証環境によるアノテーションの実行結果 // --- Ubuntu 12.04 (CPU: Intel Xeon E5520 2.27GHz, Memory: 8GB) + MeCab(ver.0.994, IPADIC) ... 約15時間 // --- Windows 7 (CPU: Intel Corei5 2.6GHz, Memory: 8GB) + MeCab(ver.0.98, IPADIC) ... 約18時間 // 形態素解析結果の取り込み手順は,次のとおりです。なお,詳細,および,使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_5/6.言語資料にアノテーションする#q6041ade]]を参照してください。 // + 『ひまわり』(ver.1.5以上)をインストールしてください。 // + 形態素解析システム(JUMAN もしくは MeCab)をインストールしてください。 // + 『ひまわり』を起動してください。ただし,Windows の場合は,himawari_debug.exe を使用し,処理が進んでいるか,監視しつつ,実行することをお勧めします。 // + 設定ファイル config_aozora.db.xml を読み込んで下さい。 // + [ツール]→[アノテーション]→[外部プログラム]から,形態素解析システムを選択してください。実行速度の点からは,MeCabを利用することをお勧めします。 // + 完了です。 *謝辞 [#xc4d4323] 収録作品の著者の方々,有益なデータを提供してくださる青空文庫の運営者,工作員の方々に心より感謝いたします。 *アンケート [#l737b909] #html{{ <div style="text-align:center"> <iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UOVRZRkdIT0FRNlZYT1hRNEhVNTIzR1FHVy4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe> </div> }}