本ページは現在構築中です
このページでは,『CD-毎日新聞データ集』(本社版,1994年以降)を『ひまわり』にインポートする方法を示します。ただし,2.1 節のとおり,実行環境に制限があります。必ず,事前に確認して下さい。
なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。
インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。
resources フォルダ config_mainichi.xml config_mainichi.db.xml execute_himawari_win.bat execute_himawari_mac.command execute_himawari_linux.sh
変換は,1年分ずつ行います。変換結果をまとめて検索する場合は,3.4 節を参照して下さい。
% java -Xmx3072m -jar himawari.jar
上記の起動例,および,起動用プログラムでは,デフォルトで 3072MB のメモリを確保するようになっています。もし,メモリ不足のエラーが出た場合は,数値を増やして下さい。なお,起動用プログラムはテキストエディタで編集できます。
『ひまわり』は,設定ファイルで検索対象を切り替えます。「毎日新聞データ集用変換パッケージ」には,専用の設定ファイル(config_mainichi.xml)が含まれていますが,使用前にインポートしたデータの情報を書き込む必要があります。
例えば,3.1 でコーパス名を「mainichi1995」とした場合は,config_mainichi.xml を次のように修正して下さい。
<corpora name="毎日新聞データ集"> <li name="コーパス名(日本語もOK)" path="Corpora/インポート時に指定したコーパス名/corpus" /> </corpora>
<corpora name="毎日新聞データ集"> <li name="毎日新聞1995" path="Corpora/mainichi1995/corpus" /> </corpora>
複数の毎日新聞データをインポートし,まとめて検索するには,次のように設定を列挙して下さい。
<corpora name="毎日新聞データ集"> <li name="毎日新聞1995" path="Corpora/mainichi1995/corpus" /> <li name="毎日新聞1996" path="Corpora/mainichi1996/corpus" /> </corpora>
『ひまわり』を起動し,[ファイル]→[新規]で,設定ファイル(config_mainichi.xml) を読み込んでください。これで,インポートしたデータを検索できる状態になります。詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。
列名 | 内容 |
タイトル | 記事のタイトル |
面種 | 記事の面種 |
年 | 記事を含む新聞の発行年 |
月 | 記事を含む新聞の発行月 |
日 | 記事を含む新聞の発行日 |
朝/夕刊 | 朝刊,夕刊の別 |
地域 | 大阪版の記事の場合,大阪となる。本社版の場合は,空欄 |
文字数 | 記事に含まれる文字数 |