[PukiWiki]

全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法

Top/全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2022-03-28(更新)
 

1.概要†

 このページでは,『毎日新聞記事データ集』(本社版,1994年以降)を『ひまわり』にインポートする方法を示します。ただし,2.1 節のとおり,実行環境に制限があります。必ず,事前に実行環境を確認して下さい。

 なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。

↑

2.準備†

↑

2.1 実行環境の確認†

 インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。

  1. OSが64ビット版であること
    • Windowsの場合: himawari.exeが起動すれば,64ビット版です。himawari32.exeしか動かなければ,32ビット版ということになります。
    • macOSの場合は,確認の必要はありません(64ビット版でないと『ひまわり』自体が動きません)。
  2. 8GB 以上のメモリが搭載されていること
  3. 『ひまわり』はver.1.7を使用してください。
↑

2.2 「毎日新聞記事データ集用変換パッケージ」のインストール†

  1. 「毎日新聞記事データ集用変換パッケージ」をダウンロードしてください。(履歴・旧版)
  2. 『ひまわり』を起動し,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップして下さい。なお,ファイルは展開(解凍)する必要はありません。
↑

3.変換手順†

↑

3.1 毎日新聞記事データの配置†

  1. 毎日新聞のテキストデータを格納するために,「Mainichi」というフォルダを新規に作成して下さい。
  2. インポートする毎日新聞のファイルをMainichiフォルダにセットアップします。このとき,次のように年ごとにフォルダを作成し,そこに毎日新聞のファイルをコピーして下さい。なお,ファイル末尾が .TXT のように大文字の場合は,小文字にして下さい(例:mai94.TXT → mai94.txt)
    - Mainichi
     - 1994
       - mai94.txt
     - 1995
       - mai95.txt
          :
     - 2002
       - mai2002a.txt
       - mai2002b.txt
           :
↑

3.2 インポートの実行†

  1. 『ひまわり』を起動して下さい。
  2. 3.1で作成したMainichiフォルダを『ひまわり』にドラッグ&ドロップして下さい。
  3. インポート設定用のウィンドウの「詳細オプション」をクリックすると,次のウィンドウが起動します。
    • 「テキスト変換」オプションのメニューから「mainichi.htd」を選択して下さい。
    • 「設定ファイル(テンプレート)」オプションのメニューから「mainichiConfig.xml」を選択して下さい。
    • 「サブコーパスを作る」オプションにチェックを入れて下さい。
    • 1年分しかインポートしない場合は,「変換対象データのフォルダ」欄と「コーパス名」欄を次のように変更してください。
      • 「変換対象データのフォルダ」の末尾がMainichiで終わるように書き換える。(例: E:\Mainichi\1994 →E:\Mainichi)
      • 「コーパス名」をMainichiに書き換える。(例:1994 → Mainichi)
         
        import_mainichi.png
         
  4. 「インポート」ボタンを押すと,インポートの処理が開始します。「インポートが正常に終了しました」と出れば,成功です。
  5. 「毎日新聞記事データ集用変換パッケージ」のインストールをもう一度行なって下さい。これは,インポートの処理を行うと,「毎日新聞記事データ集用変換パッケージ」でインストールしたファイルの一部が削除されるためです。
↑

4.利用方法†

↑

4.1 検索方法†

  1. 『ひまわり』を起動し,[ファイル]→[コーパス選択]で,Mainichi(config_mainichi.xml) を読み込んでください。インポート直後はこの状態です。
  2. これで,インポートしたデータを検索できる状態になります。詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。
↑

4.2 検索結果†

列名内容
タイトル記事見出し
面種記事の面種
年記事を含む新聞の発行年
月記事を含む新聞の発行月
日記事を含む新聞の発行日
朝/夕刊朝刊,夕刊の別
地域大阪版の記事の場合,大阪となる。本社版の場合は,空欄
文字数記事に含まれる文字数

 「毎日新聞記事データ集」の仕様は,日外アソシエーツの納品データ仕様書(本社版)を参照して下さい。インポート時は,元データをそのまま利用していますが,次のような個別処理を行なっています。詳しい処理内容は,インポートの変換定義ファイル(resoureces/htd/mainichi.htd)をご覧ください。

  • 大阪版の記事の場合,元データでは,記事見出しの末尾に「【大阪】」が付与されていますが,インポート時に削除しています。
  • 著作権がフラグが「著作権無」の記事は,記事本文を空欄した状態でインポートしています。
↑

アンケート†

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS

total:5659
today:1
yesterday:0

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-03-28 (月) 21:35:10