#author("2022-10-23T17:55:17+09:00;2022-03-28T21:35:10+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] &size(20){&color(red){本ページは現在構築中です};}; //&size(20){&color(red){本ページは現在構築中です};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2022-03-28(更新) #br * 1.概要 [#x0562e5e] このページでは,[[『CD-毎日新聞データ集』>http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html]](&color(red){本社版,1994年以降};)を『ひまわり』にインポートする方法を示します。ただし,2.1 節のとおり,実行環境に制限があります。必ず,事前に確認して下さい。 このページでは,[[『毎日新聞記事データ集』>https://www.nichigai.co.jp/sales/corpus.html]](&color(red){本社版,1994年以降};)を『ひまわり』にインポートする方法を示します。ただし,2.1 節のとおり,実行環境に制限があります。&color(red){必ず,事前に実行環境を確認して下さい。}; なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。 * 2.準備 [#a003392e] ** 2.1 実行環境の確認 [#a49e3d9a] インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。 + OSが64ビット版であること -- (microsoft.com) [[自分のパソコンが 32 ビット版か 64 ビット版かを確認したい>http://support.microsoft.com/kb/958406/ja]] -- (apple.com) [[Intel ベースの Mac のプロセッサが 32 ビットか 64 ビットかを識別する方法>http://support.apple.com/kb/HT3696?viewlocale=ja_JP&locale=ja_JP]] + 『ひまわり』実行時に 3GB 程度のメモリが確保できること -- 4GB + 64ビット版の JRE (Java の実行環境)がインストールされていること -- 後述のバッチファイルで,『ひまわり』が起動するか確認してください。 -- 実行できないようであれば,JRE を [[Oracle のサイト>https://java.com/ja/download/manual.jsp]]からダウンロードし,インストールしてください。 -- Windowsの場合: himawari.exeが起動すれば,64ビット版です。himawari32.exeしか動かなければ,32ビット版ということになります。 -- macOSの場合は,確認の必要はありません(64ビット版でないと『ひまわり』自体が動きません)。 + 8GB 以上のメモリが搭載されていること //+ Windowsの場合,64ビット版の JRE (Java の実行環境)がインストールされていること //-- インストールしていない場合は,64ビット版の JRE を [[Oracle のサイト>https://java.com/ja/download/manual.jsp]]からダウンロードし,インストールしてください。 + 『ひまわり』は[[ver.1.7>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.7]]を使用してください。 ** 2.2 『ひまわり』ver.1.5のインストール [#y554246f] - [[ver.1.5>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.5]] (β03以降)をインストールして下さい。 -- Mac をお使いの方は,ver.1.5 の「MacOS用プログラム同梱版」をインストールして下さい。 -- ver.1.3 はインポートの機能がないため,本ページの対象外ですが,インポートした結果は ver.1.3 でも利用できます。 ** 2.2 「毎日新聞記事データ集用変換パッケージ」のインストール [#i04c1787] + [[「毎日新聞記事データ集用変換パッケージ」>https://csd.ninjal.ac.jp/archives/Himawari/himawari_mainichi_20220328.zip]]をダウンロードしてください。([[履歴・旧版>./履歴]]) + 『ひまわり』を起動し,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップして下さい。なお,ファイルは展開(解凍)する必要はありません。 ** 2.3 「毎日新聞データ集用変換パッケージ」のインストール [#i04c1787] + 「毎日新聞データ集用変換パッケージ」(himawari_mainichi.zip)をダウンロードしてください。 + パッケージを解凍し,Himawari_mainich フォルダの中身を確認して下さい。次のファイルが含まれます。 resources フォルダ config_mainichi.xml config_mainichi.db.xml execute_himawari_win.bat execute_himawari_mac.command execute_himawari_linux.sh +『ひまわり』がインストールされているフォルダにコピーして下さい。 * 3.変換手順 [#j99c5630] 変換は,&color(red){1年分ずつ};行います。変換結果をまとめて検索する場合は,#節を参照して下さい。 ** 3.1 毎日新聞データの配置 [#vc95c8d5] + 毎日新聞のテキストデータを格納するために,「mainichi + 年」の形式で,フォルダを新規に作成して下さい(例:mainichi1995)。 -- フォルダ名がコーパス名になります。 -- 1年分が複数のファイルから構成されている場合は mainichi1999A のように区別し,個別にインポートの処理をするようにしてください。 + 作成したフォルダに,毎日新聞のテキストデータをコピーして下さい。 -- なお,&color(red){ファイル末尾が .TXT のように大文字の場合};は,小文字にして下さい(例:MAI95.TXT → MAI95.txt) -- 不要なファイルがインポートされるのを防ぐため,1のフォルダには他のファイルを入れないで下さい。 ** 3.1 毎日新聞記事データの配置 [#vc95c8d5] + 毎日新聞のテキストデータを格納するために,「Mainichi」というフォルダを新規に作成して下さい。 + インポートする毎日新聞のファイルをMainichiフォルダにセットアップします。このとき,次のように年ごとにフォルダを作成し,そこに毎日新聞のファイルをコピーして下さい。なお,&color(red){ファイル末尾が .TXT のように大文字の場合};は,小文字にして下さい(例:mai94.TXT → mai94.txt) - Mainichi - 1994 - mai94.txt - 1995 - mai95.txt : - 2002 - mai2002a.txt - mai2002b.txt : ** 3.2 『ひまわり』の起動 [#c6a46152] - コマンドラインから実行する場合は,次のように『ひまわり』を起動してください。 % java -Xmx3072m -jar himawari.jar - コマンドラインでの操作が不慣れな方のために,起動用プログラムを用意しています。 -- Windows 用: execute_himawari_win.bat -- Mac 用: execute_himawari_mac.command -- Linux 用: execute_himawari_linux.sh 上記の起動例,および,起動用プログラムでは,デフォルトで 3072MB のメモリを確保するようになっています。もし,メモリ不足のエラーが出た場合は,数値を増やして下さい。なお,起動用プログラムはテキストエディタで編集できます。 ** 3.3 インポートの実行 [#na449f5c] + [新規]→[インポート]を実行して下さい。 + 「詳細オプション」をクリックすると,次のウィンドウが起動します。 -- 「参照」ボタンを押して,毎日新聞データを格納したフォルダを指定して下さい。この際,コーパス名は自動的にフォルダ名と同一になりますが,変更しないで下さい。 ** 3.2 インポートの実行 [#na449f5c] + 『ひまわり』を起動して下さい。 + 3.1で作成したMainichiフォルダを『ひまわり』にドラッグ&ドロップして下さい。 + インポート設定用のウィンドウの「詳細オプション」をクリックすると,次のウィンドウが起動します。 -- 「テキスト変換」オプションのメニューから「mainichi.htd」を選択して下さい。 + 「インポート」ボタンを押すと,インポートの処理が開始します。次の画面が出れば,成功です。 -- 「設定ファイル(テンプレート)」オプションのメニューから「mainichiConfig.xml」を選択して下さい。 -- 「サブコーパスを作る」オプションにチェックを入れて下さい。 -- &color(red){1年分しかインポートしない場合は,};「変換対象データのフォルダ」欄と「コーパス名」欄を次のように変更してください。 --- 「変換対象データのフォルダ」の末尾がMainichiで終わるように書き換える。(例: E:\Mainichi\1994 →E:\Mainichi) --- 「コーパス名」をMainichiに書き換える。(例:1994 → Mainichi) #br #ref(./import_mainichi.png,70%) #br + 「インポート」ボタンを押すと,インポートの処理が開始します。「インポートが正常に終了しました」と出れば,成功です。 + &color(red){「毎日新聞記事データ集用変換パッケージ」のインストールをもう一度行なって下さい。};これは,インポートの処理を行うと,「毎日新聞記事データ集用変換パッケージ」でインストールしたファイルの一部が削除されるためです。 * 4.利用方法 [#f41daeb2] ** 4.1 検索方法 [#r46250bd] +『ひまわり』を起動し,[ファイル]→[コーパス選択]で,Mainichi(config_mainichi.xml) を読み込んでください。インポート直後はこの状態です。 + これで,インポートしたデータを検索できる状態になります。詳しい検索方法については,全文検索システム『ひまわり』の[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]を参照してください。 ** 設定ファイルの修正 [#z962364f] 『ひまわり』は,設定ファイルで検索対象を切り替えます。「毎日新聞データ集用変換パッケージ」には,専用の設定ファイル(config_mainichi.xml)が含まれていますが,使用前にインポートしたデータの情報を書き込む必要があります。 ** 4.2 検索結果 [#tdabd611] 例えば,3.1 でコーパス名を「mainichi1995」とした場合は,config_mainichi.xml を次のように修正して下さい。 |列名|内容|h |タイトル|記事見出し| |面種|記事の面種| |年|記事を含む新聞の発行年| |月|記事を含む新聞の発行月| |日|記事を含む新聞の発行日| |朝/夕刊|朝刊,夕刊の別| |地域|大阪版の記事の場合,大阪となる。本社版の場合は,空欄| |文字数|記事に含まれる文字数| - 修正前 「毎日新聞記事データ集」の仕様は,[[日外アソシエーツ>https://www.nichigai.co.jp/sales/corpus.html]]の[[納品データ仕様書(本社版)>https://www.nichigai.co.jp/img/man_mai.pdf]]を参照して下さい。インポート時は,元データをそのまま利用していますが,次のような個別処理を行なっています。詳しい処理内容は,インポートの変換定義ファイル(resoureces/htd/mainichi.htd)をご覧ください。 - 大阪版の記事の場合,元データでは,記事見出しの末尾に「【大阪】」が付与されていますが,インポート時に削除しています。 - 著作権がフラグが「著作権無」の記事は,記事本文を空欄した状態でインポートしています。 **アンケート [#e7aba476] #html{{ <div style="text-align:center"> <iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UNkVRR0ozV0JaMjg1MzVQTjZPTzdIWjdBSy4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe> </div> }} 「毎日新聞データ集用変換パッケージ」には,毎日新聞用にカスタマイズした設定ファイルが付属しています。ただし, //インポート機能を利用した場合,通常,インポートした資料用の設定ファイルが生成されます。今回の場合資料をインポートした場合は,通常を切り替えます。(config_)をは検索対象のコーパスごとに設定ファイルを用意するようになっています。 //「毎日新聞データ集用変換パッケージ」 // インポートしたデータを confgi + #の方法で,『ひまわり』を再度起動し,[ファイル]→[新規]で config_mainichi.xml を読み込んで下さい。 + [ツール]→[インデックス生成]を実行し,エラーがでなければ,終了です。 * 利用方法 [#f41daeb2] // 毎日新聞データをインポートした直後から,全文検索機能を利用することができます。インポートしたデータを利用するには,しかし,自動生成される設定ファイル(config_コーパス名.xml)では,全文検索のみしかできず,記事のタイトル すると,それを利用するための設定ファイル