国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
本ページは現在構築中です
このページでは,『CD-毎日新聞データ集』(本社版,1994年以降)を『ひまわり』にインポートする方法を示します。ただし,2.1 節のとおり,実行環境に制限があります。必ず,事前に確認して下さい。
なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。
インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。
resources フォルダ config_mainichi.xml config_mainichi.db.xml execute_himawari_win.bat execute_himawari_mac.command execute_himawari_linux.sh
変換は,1年分ずつ行います。変換結果をまとめて検索する場合は,#節を参照して下さい。
% java -Xmx3072m -jar himawari.jar
上記の起動例,および,起動用プログラムでは,デフォルトで 3072MB のメモリを確保するようになっています。もし,メモリ不足のエラーが出た場合は,数値を増やして下さい。なお,起動用プログラムはテキストエディタで編集できます。
『ひまわり』は,設定ファイルで検索対象を切り替えます。「毎日新聞データ集用変換パッケージ」には,専用の設定ファイル(config_mainichi.xml)が含まれていますが,使用前にインポートしたデータの情報を書き込む必要があります。
例えば,3.1 でコーパス名を「mainichi1995」とした場合は,config_mainichi.xml を次のように修正して下さい。
<corpora name="毎日新聞データ集"> <li name="コーパス名(日本語もOK)" path="Corpora/インポート時に指定したコーパス名/corpus" /> </corpora>
<corpora name="毎日新聞データ集"> <li name="毎日新聞1995" path="Corpora/mainichi1995/corpus" /> </corpora>
複数の毎日新聞データをインポートし,まとめて検索するには,次のように設定を列挙して下さい。
<corpora name="毎日新聞データ集"> <li name="毎日新聞1995" path="Corpora/mainichi1995/corpus" /> <li name="毎日新聞1996" path="Corpora/mainichi1996/corpus" /> </corpora>
すると,それを利用するための設定ファイル