[[全文検索システム『ひまわり』]]
&size(20){&color(red){本ページは現在構築中です};};
* 概要 [#x0562e5e]
このページでは,[[『CD-毎日新聞データ集』>http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html]](&color(red){本社版,1994年以降};)を『ひまわり』にインポートする方法を示します。ただし,後述のとおり,実行環境に制限があります。必ず,事前に確認して下さい。
なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。
* 準備 [#a003392e]
** 実行環境の確認 [#a49e3d9a]
インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。
+ OSが64ビット版であること
-- (microsoft.com) [[自分のパソコンが 32 ビット版か 64 ビット版かを確認したい>http://support.microsoft.com/kb/958406/ja]]
-- (apple.com) [[Intel ベースの Mac のプロセッサが 32 ビットか 64 ビットかを識別する方法>http://support.apple.com/kb/HT3696?viewlocale=ja_JP&locale=ja_JP]]
+ 『ひまわり』実行時に 3GB 程度のメモリが確保できること
-- 4GB
+ 64ビット版の JRE (Java の実行環境)がインストールされていること
-- 後述のバッチファイルで,『ひまわり』が起動するか確認してください。
-- 実行できないようであれば,JRE を [[Oracle のサイト>https://java.com/ja/download/manual.jsp]]からダウンロードし,インストールしてください。
** 『ひまわり』ver.1.5のインストール [#y554246f]
- [[ver.1.5>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.5]] (β03以降)をインストールして下さい。
-- Mac をお使いの方は,ver.1.5 の「MacOS用プログラム同梱版」をインストールして下さい。
-- ver.1.3 はインポートの機能がないため,本ページの対象外ですが,インポートした結果は ver.1.3 でも利用できます。
** 「毎日新聞データ集用変換パッケージ」のインストール [#i04c1787]
+ 「毎日新聞データ集用変換パッケージ」(himawari_mainichi.zip)をダウンロードしてください。
+ パッケージを解凍し,Himawari_mainich フォルダの中身を確認して下さい。次のファイルが含まれます。
resources フォルダ
config_mainichi.xml
config_mainichi.db.xml
execute_himawari_win.bat
execute_himawari_mac.command
execute_himawari_linux.sh
+『ひまわり』がインストールされているフォルダにコピーして下さい。
* 変換手順 [#j99c5630]
変換は,&color(red){1年分ずつ};行います。変換結果をまとめて検索する場合は,#節を参照して下さい。
** 毎日新聞データの配置 [#vc95c8d5]
+ 毎日新聞のテキストデータを格納するために,「mainichi + 年」の形式で,フォルダを新規に作成して下さい(例:mainichi1999)。
-- フォルダ名がコーパス名になります。
-- 1年分が複数のファイルから構成されている場合は mainichi1999A のように区別し,ファイルごとに独立して処理しくてください。
+ 作成したフォルダに,毎日新聞のテキストデータをコピーして下さい。
-- なお,&color(red){ファイル末尾が .TXT のように大文字の場合};は,小文字にして下さい(例:MAI95.TXT → MAI95.txt)
-- 不要なファイルがインポートされるのを防ぐため,1のフォルダには他のファイルを入れないで下さい。
** 『ひまわり』の起動 [#c6a46152]
- コマンドラインから実行する場合は,次のように『ひまわり』を起動してください。
% java -Xmx3072m -jar himawari.jar
- コマンドラインでの操作が不慣れな方のために,起動用プログラムを用意しています。
-- Windows 用: execute_himawari_win.bat
-- Mac 用: execute_himawari_mac.command
-- Linux 用: execute_himawari_linux.sh
上記の起動例,および,起動用プログラムでは,デフォルトで 3072MB のメモリを確保するようになっています。もし,メモリ不足のエラーが出た場合は,数値を増やして下さい。なお,起動用プログラムはテキストエディタで編集できます。
** インポートの実行 [#na449f5c]
+ [新規]→[インポート]を実行して下さい。
+ 「詳細オプション」をクリックすると,次のウィンドウが起動します。
-- 「参照」ボタンを押して,毎日新聞データを格納したフォルダを指定して下さい。
-- コーパス名は,指定したフォルダ名と同一になりますが,
-- 「テキスト変換」オプションのメニューから「mainichi.htd」を選択して下さい。
+ 「インポート」ボタンを押すと,インポートの処理が開始します。
** 索引付け [#b5075b8c]