全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
//&color(red){&size(20){国語研究所の施設整備に伴い,サー...
//- &color(red){&size(20){国語研究所の施設整備に伴い,『...
//&size(18){&color(red){本ページのアンケートにてご連絡い...
//&size(18){&color(red){現在作業中です};};
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2024-10-03
#br
*『青空文庫』パッケージの概要 [#ec8e3188]
本パッケージは,[[『青空文庫』>https://www.aozora.gr.jp...
*収録データの内容 [#o33facbc]
- サイト:[[『青空文庫』>https://www.aozora.gr.jp/]]
- 収録作品,および,関連データ
-- [[「作家別作品一覧拡充版」>https://www.aozora.gr.jp/in...
--- 著作権が切れていること
--- XHTML 版が存在し,かつ,『青空文庫』サイトから配布さ...
--- 『ひまわり』用にインポートできること
--- なお,底本が複数ある作品は,「文字遣い種別」が新字,...
-- [[「作家別作品一覧拡充版」>https://www.aozora.gr.jp/in...
--- ただし,分類番号が空欄の場合は,「青空文庫 分野別リ...
-- 「作家別作品一覧拡充版」,「分類データ」は,共に「[[...
---
- 原資料からの変更点
-- 『ひまわり』のインポート機能を利用し,『ひまわり』用の...
-- 変換時に本文には変更を加えていませんが,次の文字変換を...
--- 画像で表現されている外字を文字に変換
--- いわゆる半角文字を全角文字に変換
-- ルビ,注記などの付与情報についても,基本的に改変を加え...
*使用条件 [#te59028f]
- 本パッケージの使用条件は,[[青空文庫収録ファイルの取り...
- 本ページで公開しているパッケージを利用したことにより直...
- 本ページの成果物を論文などで引用される場合は,[[成果物...
*ダウンロード [#g26eb865]
// 20160401は,旧版から一部仕様に変更があります。旧版を...
- 『青空文庫』パッケージ(20241001) ([[履歴・旧バージョン>...
-- [[日本文学/小説(ndc913)>https://csd.ninjal.ac.jp/arch...
-- [[日本文学/小説以外(except_ndc913)>https://csd.ninjal...
//--- &color(red){注意(2021-10-04)};: 2021-01-08以降に青...
//--- &color(red){注意(2021-10-04)};: 必要に応じて,[[旧...
--- NDC分類は,『青空文庫』の[[分野別リスト>http://yozora...
--- 童話は,日本文学/小説以外(except_ndc913)に収録されて...
--- 従来版のようにすべてを一括して検索する場合は,両方を...
//- [[『青空文庫』パッケージ>https://docs.google.com/open...
//-- &color(red){Windows をお使いの方は,ダウンロードした...
//-- 20130927版 を ver.1.5でも使えるように,設定ファイル...
//- [[(通常版) 形態素解析結果追加パッケージ>http://csd.ni...
//-- &color(red){4月6〜10日にかけて,ダウンロードした方は...
//-- &color(red){利用には};,上記の『青空文庫』パッケージ...
//-- 収録作品を [[MeCab>http://taku910.github.io/mecab/]]...
//-- 『ひまわり』ver.1.5に標準で付属している「青空文庫サ...
//-- ファイルは,7z形式で圧縮されています。OS標準の機能で...
//--形態素解析結果追加パッケージ(&color(red){修正中};,[[...
--[[形態素解析結果追加パッケージ>https://csd.ninjal.ac.jp...
//--- &color(red){注意:};初回リリース後に修正(2022-04-02...
--- 上記2パッケージをインストールしないと使えません。&co...
--- 収録作品を [[MeCab>http://taku910.github.io/mecab/]] ...
//--- メモリを大量に使用するため,[[64bit版のJavaを利用す...
//-- 『ひまわり』&color(red){ver.1.6専用};です。
//-- 上記の通常版と内容に違いはありませんが,『ひまわり』...
//-- 圧縮形式もzipなので,他のパッケージと同様ドラッグ&...
//-- ただし,ver.1.6は現在開発版なので,&color(red){通常...
*使用方法 [#lcd27131]
** インストール方法 [#ad87ca23]
([[ビデオ>https://youtu.be/6nZKGYVN-_c]]も用意しました。...
+ [[『ひまわり』>全文検索システム『ひまわり』]](&color(re...
+ 『ひまわり』を起動してください。
-- &color(red){Windows環境で,すでに『青空文庫』パッケー...
+ 『青空文庫』パッケージをダウンロードし,ダウンロードし...
//-- 『ひまわり』ver.1.5.4以降では,ダウンロードしたファ...
//-- 『ひまわり』ver.1.5.3までのバージョンでは,次の手順...
//--- ダウンロードしたファイルを解凍すると,AozoraHimawar...
// Corpora フォルダ ... 『青空文庫』データを格納したフォ...
// config_aozora.xml ... 設定ファイル(ver.1.3, 1.5共用)
// config_aozora.db.xml ... 設定ファイル(ver.1.5専用;メ...
//--- 上記のフォルダ,ファイルを,『ひまわり』がインスト...
//-- Windows の場合,上書きの確認がでるかもしれませんが,...
//-- &color(red){Mac の場合,上書きすると,元あったフォル...
+ 形態素解析結果追加パッケージをインストールする場合は,...
//-- (従来版追加パッケージ)パッケージをダウンロード・解凍...
//-- (1.6専用追加パッケージ) ダウンロードした追加パッケー...
以上で,インストールは終了です。
次回以降は,[ファイル]⇒[コーパス選択]から選択できます。
// 次回以降は,『ひまわり』フォルダにインストールされた...
//|設定ファイル|説明|h
//|config_aozora_ndc913.xml|日本文学/小説(ndc913)を検索...
//|config_aozora_except_ndc913.xml|日本文学/小説(ndc913)...
//|config_aozora.xml|両方のパッケージを一括して検索する場...
//|config_aozora.sd.xml|両方のパッケージを一括して検索す...
// なお,検索時にメモリ関連のエラーが出る場合は,[[FAQの...
** 検索 [#xd38c47d]
- 検索方法は,[[利用者マニュアル>全文検索システム『ひまわ...
// 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ド...
-検索結果に含まれる書誌情報は,基本的に[[「作家別作品一覧...
-- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとお...
>>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*...
-- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」...
---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」
---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・ア...
-- 「著者」欄などで複数の著者が入る場合は,「::」で区切ら...
- 「文字数」欄は,当該の作品の「本文」に含まれる文字数で...
//- 収録作品のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一...
** 形態素解析結果追加パッケージの利用 [#vad8871b]
//- 通常版
- 検索時には,[ファイル]⇒[コーパス選択]で,「外部DB」を「...
//config_aozora.sd.xml を読み込んでください。
- 使用方法は,[[利用者マニュアル>全文検索システム『ひまわ...
- 「外部DB」が「なし」の場合と同様,全文検索機能もそのま...
//- ver.1.6専用版
//-- 検索時には,config_aozora.sd.xml を読み込んでくださ...
** 収録されている作品の一覧 [#b0004852]
[ツール] → [一覧] → [作品別書誌情報一覧]を実行してくだ...
- 各作品の著者や底本の情報のほか,&color(red){収録文字数}...
- ([[ビデオ>https://youtu.be/Px3a0Co1AUk]]も用意しました)...
- 単語数については,作品ごとに計測するための方法を[[ビデ...
// ** 進んだ使い方(冒険者向け) [#g5863428]
// ここでは,『ひまわり』の自動アノテーション機能を用い...
// - 形態素解析結果の取り込みには,高速なCPU,大量のメモ...
// - 形態素解析結果の取り込み,検索には,時間がかかる可能...
// - 参考
// -- データサイズ(20120924版の値)
// --- 約23GB (本パッケージのデータも含む)
// --- なお,総形態素数は91241205
// -- 検証環境によるアノテーションの実行結果
// --- Ubuntu 12.04 (CPU: Intel Xeon E5520 2.27GHz, Memor...
// --- Windows 7 (CPU: Intel Corei5 2.6GHz, Memory: 8GB) ...
// 形態素解析結果の取り込み手順は,次のとおりです。なお...
// + 『ひまわり』(ver.1.5以上)をインストールしてください。
// + 形態素解析システム(JUMAN もしくは MeCab)をインスト...
// + 『ひまわり』を起動してください。ただし,Windows の場...
// + 設定ファイル config_aozora.db.xml を読み込んで下さい。
// + [ツール]→[アノテーション]→[外部プログラム]から,形態...
// + 完了です。
*謝辞 [#xc4d4323]
収録作品の著者の方々,有益なデータを提供してくださる青...
*アンケート [#l737b909]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.o...
</div>
}}
終了行:
[[全文検索システム『ひまわり』]]
//&color(red){&size(20){国語研究所の施設整備に伴い,サー...
//- &color(red){&size(20){国語研究所の施設整備に伴い,『...
//&size(18){&color(red){本ページのアンケートにてご連絡い...
//&size(18){&color(red){現在作業中です};};
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2024-10-03
#br
*『青空文庫』パッケージの概要 [#ec8e3188]
本パッケージは,[[『青空文庫』>https://www.aozora.gr.jp...
*収録データの内容 [#o33facbc]
- サイト:[[『青空文庫』>https://www.aozora.gr.jp/]]
- 収録作品,および,関連データ
-- [[「作家別作品一覧拡充版」>https://www.aozora.gr.jp/in...
--- 著作権が切れていること
--- XHTML 版が存在し,かつ,『青空文庫』サイトから配布さ...
--- 『ひまわり』用にインポートできること
--- なお,底本が複数ある作品は,「文字遣い種別」が新字,...
-- [[「作家別作品一覧拡充版」>https://www.aozora.gr.jp/in...
--- ただし,分類番号が空欄の場合は,「青空文庫 分野別リ...
-- 「作家別作品一覧拡充版」,「分類データ」は,共に「[[...
---
- 原資料からの変更点
-- 『ひまわり』のインポート機能を利用し,『ひまわり』用の...
-- 変換時に本文には変更を加えていませんが,次の文字変換を...
--- 画像で表現されている外字を文字に変換
--- いわゆる半角文字を全角文字に変換
-- ルビ,注記などの付与情報についても,基本的に改変を加え...
*使用条件 [#te59028f]
- 本パッケージの使用条件は,[[青空文庫収録ファイルの取り...
- 本ページで公開しているパッケージを利用したことにより直...
- 本ページの成果物を論文などで引用される場合は,[[成果物...
*ダウンロード [#g26eb865]
// 20160401は,旧版から一部仕様に変更があります。旧版を...
- 『青空文庫』パッケージ(20241001) ([[履歴・旧バージョン>...
-- [[日本文学/小説(ndc913)>https://csd.ninjal.ac.jp/arch...
-- [[日本文学/小説以外(except_ndc913)>https://csd.ninjal...
//--- &color(red){注意(2021-10-04)};: 2021-01-08以降に青...
//--- &color(red){注意(2021-10-04)};: 必要に応じて,[[旧...
--- NDC分類は,『青空文庫』の[[分野別リスト>http://yozora...
--- 童話は,日本文学/小説以外(except_ndc913)に収録されて...
--- 従来版のようにすべてを一括して検索する場合は,両方を...
//- [[『青空文庫』パッケージ>https://docs.google.com/open...
//-- &color(red){Windows をお使いの方は,ダウンロードした...
//-- 20130927版 を ver.1.5でも使えるように,設定ファイル...
//- [[(通常版) 形態素解析結果追加パッケージ>http://csd.ni...
//-- &color(red){4月6〜10日にかけて,ダウンロードした方は...
//-- &color(red){利用には};,上記の『青空文庫』パッケージ...
//-- 収録作品を [[MeCab>http://taku910.github.io/mecab/]]...
//-- 『ひまわり』ver.1.5に標準で付属している「青空文庫サ...
//-- ファイルは,7z形式で圧縮されています。OS標準の機能で...
//--形態素解析結果追加パッケージ(&color(red){修正中};,[[...
--[[形態素解析結果追加パッケージ>https://csd.ninjal.ac.jp...
//--- &color(red){注意:};初回リリース後に修正(2022-04-02...
--- 上記2パッケージをインストールしないと使えません。&co...
--- 収録作品を [[MeCab>http://taku910.github.io/mecab/]] ...
//--- メモリを大量に使用するため,[[64bit版のJavaを利用す...
//-- 『ひまわり』&color(red){ver.1.6専用};です。
//-- 上記の通常版と内容に違いはありませんが,『ひまわり』...
//-- 圧縮形式もzipなので,他のパッケージと同様ドラッグ&...
//-- ただし,ver.1.6は現在開発版なので,&color(red){通常...
*使用方法 [#lcd27131]
** インストール方法 [#ad87ca23]
([[ビデオ>https://youtu.be/6nZKGYVN-_c]]も用意しました。...
+ [[『ひまわり』>全文検索システム『ひまわり』]](&color(re...
+ 『ひまわり』を起動してください。
-- &color(red){Windows環境で,すでに『青空文庫』パッケー...
+ 『青空文庫』パッケージをダウンロードし,ダウンロードし...
//-- 『ひまわり』ver.1.5.4以降では,ダウンロードしたファ...
//-- 『ひまわり』ver.1.5.3までのバージョンでは,次の手順...
//--- ダウンロードしたファイルを解凍すると,AozoraHimawar...
// Corpora フォルダ ... 『青空文庫』データを格納したフォ...
// config_aozora.xml ... 設定ファイル(ver.1.3, 1.5共用)
// config_aozora.db.xml ... 設定ファイル(ver.1.5専用;メ...
//--- 上記のフォルダ,ファイルを,『ひまわり』がインスト...
//-- Windows の場合,上書きの確認がでるかもしれませんが,...
//-- &color(red){Mac の場合,上書きすると,元あったフォル...
+ 形態素解析結果追加パッケージをインストールする場合は,...
//-- (従来版追加パッケージ)パッケージをダウンロード・解凍...
//-- (1.6専用追加パッケージ) ダウンロードした追加パッケー...
以上で,インストールは終了です。
次回以降は,[ファイル]⇒[コーパス選択]から選択できます。
// 次回以降は,『ひまわり』フォルダにインストールされた...
//|設定ファイル|説明|h
//|config_aozora_ndc913.xml|日本文学/小説(ndc913)を検索...
//|config_aozora_except_ndc913.xml|日本文学/小説(ndc913)...
//|config_aozora.xml|両方のパッケージを一括して検索する場...
//|config_aozora.sd.xml|両方のパッケージを一括して検索す...
// なお,検索時にメモリ関連のエラーが出る場合は,[[FAQの...
** 検索 [#xd38c47d]
- 検索方法は,[[利用者マニュアル>全文検索システム『ひまわ...
// 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ド...
-検索結果に含まれる書誌情報は,基本的に[[「作家別作品一覧...
-- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとお...
>>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*...
-- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」...
---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」
---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・ア...
-- 「著者」欄などで複数の著者が入る場合は,「::」で区切ら...
- 「文字数」欄は,当該の作品の「本文」に含まれる文字数で...
//- 収録作品のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一...
** 形態素解析結果追加パッケージの利用 [#vad8871b]
//- 通常版
- 検索時には,[ファイル]⇒[コーパス選択]で,「外部DB」を「...
//config_aozora.sd.xml を読み込んでください。
- 使用方法は,[[利用者マニュアル>全文検索システム『ひまわ...
- 「外部DB」が「なし」の場合と同様,全文検索機能もそのま...
//- ver.1.6専用版
//-- 検索時には,config_aozora.sd.xml を読み込んでくださ...
** 収録されている作品の一覧 [#b0004852]
[ツール] → [一覧] → [作品別書誌情報一覧]を実行してくだ...
- 各作品の著者や底本の情報のほか,&color(red){収録文字数}...
- ([[ビデオ>https://youtu.be/Px3a0Co1AUk]]も用意しました)...
- 単語数については,作品ごとに計測するための方法を[[ビデ...
// ** 進んだ使い方(冒険者向け) [#g5863428]
// ここでは,『ひまわり』の自動アノテーション機能を用い...
// - 形態素解析結果の取り込みには,高速なCPU,大量のメモ...
// - 形態素解析結果の取り込み,検索には,時間がかかる可能...
// - 参考
// -- データサイズ(20120924版の値)
// --- 約23GB (本パッケージのデータも含む)
// --- なお,総形態素数は91241205
// -- 検証環境によるアノテーションの実行結果
// --- Ubuntu 12.04 (CPU: Intel Xeon E5520 2.27GHz, Memor...
// --- Windows 7 (CPU: Intel Corei5 2.6GHz, Memory: 8GB) ...
// 形態素解析結果の取り込み手順は,次のとおりです。なお...
// + 『ひまわり』(ver.1.5以上)をインストールしてください。
// + 形態素解析システム(JUMAN もしくは MeCab)をインスト...
// + 『ひまわり』を起動してください。ただし,Windows の場...
// + 設定ファイル config_aozora.db.xml を読み込んで下さい。
// + [ツール]→[アノテーション]→[外部プログラム]から,形態...
// + 完了です。
*謝辞 [#xc4d4323]
収録作品の著者の方々,有益なデータを提供してくださる青...
*アンケート [#l737b909]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.o...
</div>
}}
ページ名: