本ページは現在構築中です
このページでは,『CD-毎日新聞データ集』(本社版,1994年以降)を『ひまわり』にインポートする方法を示します。ただし,後述のとおり,実行環境に制限があります。必ず,事前に確認して下さい。
なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。
インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。
resources フォルダ config_mainichi.xml config_mainichi.db.xml execute_himawari_win.bat execute_himawari_mac.command execute_himawari_linux.sh
変換は,1年分ずつ行います。変換結果をまとめて検索する場合は,#節を参照して下さい。
% java -Xmx3072m -jar himawari.jar
上記の起動例,および,起動用プログラムでは,デフォルトで 3072MB のメモリを確保するようになっています。もし,メモリ不足のエラーが出た場合は,数値を増やして下さい。なお,起動用プログラムはテキストエディタで編集できます。
『ひまわり』は,検索対象のコーパスごとに設定ファイル(config_コーパス名.xml)を用意し,検索前に設定ファイルを読み込む設計になっています。インポート機能を利用した場合,通常,インポートした資料用の設定ファイルが生成されます。今回の場合資料をインポートした場合は,通常を切り替えます。(config_)をは検索対象のコーパスごとに設定ファイルを用意するようになっています。
「毎日新聞データ集用変換パッケージ」 インポートしたデータを confgi
毎日新聞データをインポートした直後から,全文検索機能を利用することができます。インポートしたデータを利用するには,しかし,自動生成される設定ファイル(config_コーパス名.xml)では,全文検索のみしかできず,記事のタイトル
すると,それを利用するための設定ファイル