全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法の履歴の現在との差分(No.45)

追加された行はこの色です。
削除された行はこの色です。
#author("2022-10-23T17:55:17+09:00;2022-03-28T21:35:10+09:00","default:rd","rd")
[[全文検索システム『ひまわり』]]



&size(20){&color(red){本ページは現在構築中です};};
//&size(20){&color(red){本ページは現在構築中です};};

RIGHT:作成者：山口昌也 (国立国語研究所)
RIGHT:2022-03-28(更新)
#br

* １．概要 [#x0562e5e]
　このページでは，[[『CD-毎日新聞データ集』>http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html]]（&color(red){本社版，１９９４年以降};）を『ひまわり』にインポートする方法を示します。ただし，2.1 節のとおり，実行環境に制限があります。必ず，事前に確認して下さい。
　このページでは，[[『毎日新聞記事データ集』>https://www.nichigai.co.jp/sales/corpus.html]]（&color(red){本社版，１９９４年以降};）を『ひまわり』にインポートする方法を示します。ただし，2.1 節のとおり，実行環境に制限があります。&color(red){必ず，事前に実行環境を確認して下さい。};

　なお，本ページの内容，および，配布パッケージの動作は，無保証です。自己責任での実行をお願いいたします。

* ２．準備 [#a003392e]
** 2.1 実行環境の確認 [#a49e3d9a]
　インポート時は大量のメモリを使用するため， 次の条件を満たす PC が必要です。

+ OSが64ビット版であること
-- (microsoft.com) [[自分のパソコンが 32 ビット版か 64 ビット版かを確認したい>http://support.microsoft.com/kb/958406/ja]] 
-- (apple.com) [[Intel ベースの Mac のプロセッサが 32 ビットか 64 ビットかを識別する方法>http://support.apple.com/kb/HT3696?viewlocale=ja_JP&locale=ja_JP]]
+ 『ひまわり』実行時に 3GB 程度のメモリが確保できること
-- 4GB 
+ 64ビット版の JRE (Java の実行環境)がインストールされていること
-- 後述のバッチファイルで，『ひまわり』が起動するか確認してください。
-- 実行できないようであれば，JRE を [[Oracle のサイト>https://java.com/ja/download/manual.jsp]]からダウンロードし，インストールしてください。
-- Windowsの場合： himawari.exeが起動すれば，64ビット版です。himawari32.exeしか動かなければ，32ビット版ということになります。
-- macOSの場合は，確認の必要はありません（64ビット版でないと『ひまわり』自体が動きません）。
+ 8GB 以上のメモリが搭載されていること
//+ Windowsの場合，64ビット版の JRE (Java の実行環境)がインストールされていること
//-- インストールしていない場合は，64ビット版の JRE を [[Oracle のサイト>https://java.com/ja/download/manual.jsp]]からダウンロードし，インストールしてください。
+ 『ひまわり』は[[ver.1.7>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.7]]を使用してください。

** 2.2 『ひまわり』ver.1.5のインストール [#y554246f]
- [[ver.1.5>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.5]] (β03以降)をインストールして下さい。
-- Mac をお使いの方は，ver.1.5 の「MacOS用プログラム同梱版」をインストールして下さい。
-- ver.1.3 はインポートの機能がないため，本ページの対象外ですが，インポートした結果は ver.1.3 でも利用できます。
** 2.2 「毎日新聞記事データ集用変換パッケージ」のインストール [#i04c1787]
+ [[「毎日新聞記事データ集用変換パッケージ」>https://csd.ninjal.ac.jp/archives/Himawari/himawari_mainichi_20220328.zip]]をダウンロードしてください。（[[履歴・旧版>./履歴]]）
+ 『ひまわり』を起動し，ダウンロードしたファイルを『ひまわり』にドラッグ＆ドロップして下さい。なお，ファイルは展開（解凍）する必要はありません。

** 2.3 「毎日新聞データ集用変換パッケージ」のインストール [#i04c1787]
+ 「毎日新聞データ集用変換パッケージ」(himawari_mainichi.zip)をダウンロードしてください。
+ パッケージを解凍し，Himawari_mainich フォルダの中身を確認して下さい。次のファイルが含まれます。
 resources フォルダ
 config_mainichi.xml
 config_mainichi.db.xml
 execute_himawari_win.bat
 execute_himawari_mac.command
 execute_himawari_linux.sh
+『ひまわり』がインストールされているフォルダにコピーして下さい。


* ３．変換手順 [#j99c5630]
　変換は，&color(red){１年分ずつ};行います。変換結果をまとめて検索する場合は，＃節を参照して下さい。

** 3.1 毎日新聞データの配置 [#vc95c8d5]
+ 毎日新聞のテキストデータを格納するために，「mainichi + 年」の形式で，フォルダを新規に作成して下さい（例：mainichi1995）。
-- フォルダ名がコーパス名になります。
-- １年分が複数のファイルから構成されている場合は mainichi1999A のように区別し，個別にインポートの処理をするようにしてください。
+ 作成したフォルダに，毎日新聞のテキストデータをコピーして下さい。
-- なお，&color(red){ファイル末尾が .TXT のように大文字の場合};は，小文字にして下さい(例：MAI95.TXT → MAI95.txt)
-- 不要なファイルがインポートされるのを防ぐため，1のフォルダには他のファイルを入れないで下さい。
** 3.1 毎日新聞記事データの配置 [#vc95c8d5]
+ 毎日新聞のテキストデータを格納するために，「Mainichi」というフォルダを新規に作成して下さい。
+ インポートする毎日新聞のファイルをMainichiフォルダにセットアップします。このとき，次のように年ごとにフォルダを作成し，そこに毎日新聞のファイルをコピーして下さい。なお，&color(red){ファイル末尾が .TXT のように大文字の場合};は，小文字にして下さい(例：mai94.TXT → mai94.txt)
 - Mainichi
  - 1994
    - mai94.txt
  - 1995
    - mai95.txt
      　:
  - 2002
    - mai2002a.txt
    - mai2002b.txt
       　:

** 3.2 『ひまわり』の起動 [#c6a46152]
- コマンドラインから実行する場合は，次のように『ひまわり』を起動してください。
 % java -Xmx3072m -jar himawari.jar
- コマンドラインでの操作が不慣れな方のために，起動用プログラムを用意しています。
-- Windows 用: execute_himawari_win.bat
-- Mac 用: execute_himawari_mac.command
-- Linux 用: execute_himawari_linux.sh

　上記の起動例，および，起動用プログラムでは，デフォルトで 3072MB のメモリを確保するようになっています。もし，メモリ不足のエラーが出た場合は，数値を増やして下さい。なお，起動用プログラムはテキストエディタで編集できます。

** 3.3 インポートの実行 [#na449f5c]
+ [新規]→[インポート]を実行して下さい。
+ 「詳細オプション」をクリックすると，次のウィンドウが起動します。
-- 「参照」ボタンを押して，毎日新聞データを格納したフォルダを指定して下さい。この際，コーパス名は自動的にフォルダ名と同一になりますが，変更しないで下さい。
** 3.2 インポートの実行 [#na449f5c]
+ 『ひまわり』を起動して下さい。
+ 3.1で作成したMainichiフォルダを『ひまわり』にドラッグ＆ドロップして下さい。
+ インポート設定用のウィンドウの「詳細オプション」をクリックすると，次のウィンドウが起動します。
-- 「テキスト変換」オプションのメニューから「mainichi.htd」を選択して下さい。
+ 「インポート」ボタンを押すと，インポートの処理が開始します。次の画面が出れば，成功です。
-- 「設定ファイル（テンプレート）」オプションのメニューから「mainichiConfig.xml」を選択して下さい。
-- 「サブコーパスを作る」オプションにチェックを入れて下さい。
-- &color(red){１年分しかインポートしない場合は，};「変換対象データのフォルダ」欄と「コーパス名」欄を次のように変更してください。
--- 「変換対象データのフォルダ」の末尾がMainichiで終わるように書き換える。（例：　E:\Mainichi\1994 →E:\Mainichi）
--- 「コーパス名」をMainichiに書き換える。（例：1994 →　Mainichi）
#br
#ref(./import_mainichi.png,70%)
#br
+ 「インポート」ボタンを押すと，インポートの処理が開始します。「インポートが正常に終了しました」と出れば，成功です。
+ &color(red){「毎日新聞記事データ集用変換パッケージ」のインストールをもう一度行なって下さい。};これは，インポートの処理を行うと，「毎日新聞記事データ集用変換パッケージ」でインストールしたファイルの一部が削除されるためです。

* ４．利用方法 [#f41daeb2]
** 4.1 検索方法 [#r46250bd]
+『ひまわり』を起動し，[ファイル]→[コーパス選択]で，Mainichi（config_mainichi.xml) を読み込んでください。インポート直後はこの状態です。
+ これで，インポートしたデータを検索できる状態になります。詳しい検索方法については，全文検索システム『ひまわり』の[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]を参照してください。


** 設定ファイルの修正 [#z962364f]
『ひまわり』は，設定ファイルで検索対象を切り替えます。「毎日新聞データ集用変換パッケージ」には，専用の設定ファイル（config_mainichi.xml）が含まれていますが，使用前にインポートしたデータの情報を書き込む必要があります。
** 4.2 検索結果 [#tdabd611]

　例えば，3.1 でコーパス名を「mainichi1995」とした場合は，config_mainichi.xml を次のように修正して下さい。
|列名|内容|h
|タイトル|記事見出し|
|面種|記事の面種|
|年|記事を含む新聞の発行年|
|月|記事を含む新聞の発行月|
|日|記事を含む新聞の発行日|
|朝/夕刊|朝刊，夕刊の別|
|地域|大阪版の記事の場合，大阪となる。本社版の場合は，空欄|
|文字数|記事に含まれる文字数|

- 修正前
　「毎日新聞記事データ集」の仕様は，[[日外アソシエーツ>https://www.nichigai.co.jp/sales/corpus.html]]の[[納品データ仕様書(本社版)>https://www.nichigai.co.jp/img/man_mai.pdf]]を参照して下さい。インポート時は，元データをそのまま利用していますが，次のような個別処理を行なっています。詳しい処理内容は，インポートの変換定義ファイル（resoureces/htd/mainichi.htd）をご覧ください。

- 大阪版の記事の場合，元データでは，記事見出しの末尾に「【大阪】」が付与されていますが，インポート時に削除しています。
- 著作権がフラグが「著作権無」の記事は，記事本文を空欄した状態でインポートしています。

**アンケート [#e7aba476]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UNkVRR0ozV0JaMjg1MzVQTjZPTzdIWjdBSy4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe>
</div>
}}


　「毎日新聞データ集用変換パッケージ」には，毎日新聞用にカスタマイズした設定ファイルが付属しています。ただし，


//インポート機能を利用した場合，通常，インポートした資料用の設定ファイルが生成されます。今回の場合資料をインポートした場合は，通常を切り替えます。(config_)をは検索対象のコーパスごとに設定ファイルを用意するようになっています。

//「毎日新聞データ集用変換パッケージ」
//　インポートしたデータを confgi
+ ＃の方法で，『ひまわり』を再度起動し，[ファイル]→[新規]で config_mainichi.xml を読み込んで下さい。
+ [ツール]→[インデックス生成]を実行し，エラーがでなければ，終了です。

* 利用方法 [#f41daeb2]
//　毎日新聞データをインポートした直後から，全文検索機能を利用することができます。インポートしたデータを利用するには，しかし，自動生成される設定ファイル（config_コーパス名.xml）では，全文検索のみしかできず，記事のタイトル



すると，それを利用するための設定ファイル
全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法 の履歴の現在との差分(No.45)

全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法の履歴の現在との差分(No.45)