[PukiWiki]

全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法 の変更点

Top/全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法 へ行く。
  • 全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法 の差分を削除

#author("2022-04-04T14:07:57+09:00;2022-03-28T21:35:10+09:00","default:rd","rd")
#author("2022-10-23T17:55:17+09:00;2022-03-28T21:35:10+09:00","default:rd","rd")
[[全文検索システム『ひまわり』]]



//&size(20){&color(red){本ページは現在構築中です};};

RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2022-03-28(更新)
#br

* 1.概要 [#x0562e5e]
 このページでは,[[『毎日新聞記事データ集』>https://www.nichigai.co.jp/sales/corpus.html]](&color(red){本社版,1994年以降};)を『ひまわり』にインポートする方法を示します。ただし,2.1 節のとおり,実行環境に制限があります。&color(red){必ず,事前に実行環境を確認して下さい。};

 なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。

* 2.準備 [#a003392e]
** 2.1 実行環境の確認 [#a49e3d9a]
 インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。

+ OSが64ビット版であること
-- Windowsの場合: himawari.exeが起動すれば,64ビット版です。himawari32.exeしか動かなければ,32ビット版ということになります。
-- macOSの場合は,確認の必要はありません(64ビット版でないと『ひまわり』自体が動きません)。
+ 8GB 以上のメモリが搭載されていること
//+ Windowsの場合,64ビット版の JRE (Java の実行環境)がインストールされていること
//-- インストールしていない場合は,64ビット版の JRE を [[Oracle のサイト>https://java.com/ja/download/manual.jsp]]からダウンロードし,インストールしてください。
+ 『ひまわり』は[[ver.1.7>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6]]を使用してください。
+ 『ひまわり』は[[ver.1.7>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.7]]を使用してください。

** 2.2 「毎日新聞記事データ集用変換パッケージ」のインストール [#i04c1787]
+ [[「毎日新聞記事データ集用変換パッケージ」>https://csd.ninjal.ac.jp/archives/Himawari/himawari_mainichi_20220328.zip]]をダウンロードしてください。([[履歴・旧版>./履歴]])
+ 『ひまわり』を起動し,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップして下さい。なお,ファイルは展開(解凍)する必要はありません。

* 3.変換手順 [#j99c5630]

** 3.1 毎日新聞記事データの配置 [#vc95c8d5]
+ 毎日新聞のテキストデータを格納するために,「Mainichi」というフォルダを新規に作成して下さい。
+ インポートする毎日新聞のファイルをMainichiフォルダにセットアップします。このとき,次のように年ごとにフォルダを作成し,そこに毎日新聞のファイルをコピーして下さい。なお,&color(red){ファイル末尾が .TXT のように大文字の場合};は,小文字にして下さい(例:mai94.TXT → mai94.txt)
 - Mainichi
  - 1994
    - mai94.txt
  - 1995
    - mai95.txt
       :
  - 2002
    - mai2002a.txt
    - mai2002b.txt
        :

** 3.2 インポートの実行 [#na449f5c]
+ 『ひまわり』を起動して下さい。
+ 3.1で作成したMainichiフォルダを『ひまわり』にドラッグ&ドロップして下さい。
+ インポート設定用のウィンドウの「詳細オプション」をクリックすると,次のウィンドウが起動します。
-- 「テキスト変換」オプションのメニューから「mainichi.htd」を選択して下さい。
-- 「設定ファイル(テンプレート)」オプションのメニューから「mainichiConfig.xml」を選択して下さい。
-- 「サブコーパスを作る」オプションにチェックを入れて下さい。
-- &color(red){1年分しかインポートしない場合は,};「変換対象データのフォルダ」欄と「コーパス名」欄を次のように変更してください。
--- 「変換対象データのフォルダ」の末尾がMainichiで終わるように書き換える。(例: E:\Mainichi\1994 →E:\Mainichi)
--- 「コーパス名」をMainichiに書き換える。(例:1994 → Mainichi)
#br
#ref(./import_mainichi.png,70%)
#br
+ 「インポート」ボタンを押すと,インポートの処理が開始します。「インポートが正常に終了しました」と出れば,成功です。
+ &color(red){「毎日新聞記事データ集用変換パッケージ」のインストールをもう一度行なって下さい。};これは,インポートの処理を行うと,「毎日新聞記事データ集用変換パッケージ」でインストールしたファイルの一部が削除されるためです。

* 4.利用方法 [#f41daeb2]
** 4.1 検索方法 [#r46250bd]
+『ひまわり』を起動し,[ファイル]→[コーパス選択]で,Mainichi(config_mainichi.xml) を読み込んでください。インポート直後はこの状態です。
+ これで,インポートしたデータを検索できる状態になります。詳しい検索方法については,全文検索システム『ひまわり』の[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]を参照してください。


** 4.2 検索結果 [#tdabd611]

|列名|内容|h
|タイトル|記事見出し|
|面種|記事の面種|
|年|記事を含む新聞の発行年|
|月|記事を含む新聞の発行月|
|日|記事を含む新聞の発行日|
|朝/夕刊|朝刊,夕刊の別|
|地域|大阪版の記事の場合,大阪となる。本社版の場合は,空欄|
|文字数|記事に含まれる文字数|

 「毎日新聞記事データ集」の仕様は,[[日外アソシエーツ>https://www.nichigai.co.jp/sales/corpus.html]]の[[納品データ仕様書(本社版)>https://www.nichigai.co.jp/img/man_mai.pdf]]を参照して下さい。インポート時は,元データをそのまま利用していますが,次のような個別処理を行なっています。詳しい処理内容は,インポートの変換定義ファイル(resoureces/htd/mainichi.htd)をご覧ください。

- 大阪版の記事の場合,元データでは,記事見出しの末尾に「【大阪】」が付与されていますが,インポート時に削除しています。
- 著作権がフラグが「著作権無」の記事は,記事本文を空欄した状態でインポートしています。

**アンケート [#e7aba476]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UNkVRR0ozV0JaMjg1MzVQTjZPTzdIWjdBSy4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe>
</div>
}}

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS