全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
//&size(20){&color(red){本ページは現在構築中です};};
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2022-03-28(更新)
#br
* 1.概要 [#x0562e5e]
このページでは,[[『毎日新聞記事データ集』>https://www....
なお,本ページの内容,および,配布パッケージの動作は,...
* 2.準備 [#a003392e]
** 2.1 実行環境の確認 [#a49e3d9a]
インポート時は大量のメモリを使用するため, 次の条件を満...
+ OSが64ビット版であること
-- Windowsの場合: himawari.exeが起動すれば,64ビット版で...
-- macOSの場合は,確認の必要はありません(64ビット版でな...
+ 8GB 以上のメモリが搭載されていること
//+ Windowsの場合,64ビット版の JRE (Java の実行環境)がイ...
//-- インストールしていない場合は,64ビット版の JRE を [[...
+ 『ひまわり』は[[ver.1.7>全文検索システム『ひまわり』/ダ...
** 2.2 「毎日新聞記事データ集用変換パッケージ」のインスト...
+ [[「毎日新聞記事データ集用変換パッケージ」>https://csd....
+ 『ひまわり』を起動し,ダウンロードしたファイルを『ひま...
* 3.変換手順 [#j99c5630]
** 3.1 毎日新聞記事データの配置 [#vc95c8d5]
+ 毎日新聞のテキストデータを格納するために,「Mainichi」...
+ インポートする毎日新聞のファイルをMainichiフォルダにセ...
- Mainichi
- 1994
- mai94.txt
- 1995
- mai95.txt
:
- 2002
- mai2002a.txt
- mai2002b.txt
:
** 3.2 インポートの実行 [#na449f5c]
+ 『ひまわり』を起動して下さい。
+ 3.1で作成したMainichiフォルダを『ひまわり』にドラッグ&...
+ インポート設定用のウィンドウの「詳細オプション」をクリ...
-- 「テキスト変換」オプションのメニューから「mainichi.htd...
-- 「設定ファイル(テンプレート)」オプションのメニューか...
-- 「サブコーパスを作る」オプションにチェックを入れて下さ...
-- &color(red){1年分しかインポートしない場合は,};「変換...
--- 「変換対象データのフォルダ」の末尾がMainichiで終わる...
--- 「コーパス名」をMainichiに書き換える。(例:1994 → M...
#br
#ref(./import_mainichi.png,70%)
#br
+ 「インポート」ボタンを押すと,インポートの処理が開始し...
+ &color(red){「毎日新聞記事データ集用変換パッケージ」の...
* 4.利用方法 [#f41daeb2]
** 4.1 検索方法 [#r46250bd]
+『ひまわり』を起動し,[ファイル]→[コーパス選択]で,Maini...
+ これで,インポートしたデータを検索できる状態になります...
** 4.2 検索結果 [#tdabd611]
|列名|内容|h
|タイトル|記事見出し|
|面種|記事の面種|
|年|記事を含む新聞の発行年|
|月|記事を含む新聞の発行月|
|日|記事を含む新聞の発行日|
|朝/夕刊|朝刊,夕刊の別|
|地域|大阪版の記事の場合,大阪となる。本社版の場合は,空欄|
|文字数|記事に含まれる文字数|
「毎日新聞記事データ集」の仕様は,[[日外アソシエーツ>ht...
- 大阪版の記事の場合,元データでは,記事見出しの末尾に「...
- 著作権がフラグが「著作権無」の記事は,記事本文を空欄し...
**アンケート [#e7aba476]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.o...
</div>
}}
終了行:
[[全文検索システム『ひまわり』]]
//&size(20){&color(red){本ページは現在構築中です};};
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2022-03-28(更新)
#br
* 1.概要 [#x0562e5e]
このページでは,[[『毎日新聞記事データ集』>https://www....
なお,本ページの内容,および,配布パッケージの動作は,...
* 2.準備 [#a003392e]
** 2.1 実行環境の確認 [#a49e3d9a]
インポート時は大量のメモリを使用するため, 次の条件を満...
+ OSが64ビット版であること
-- Windowsの場合: himawari.exeが起動すれば,64ビット版で...
-- macOSの場合は,確認の必要はありません(64ビット版でな...
+ 8GB 以上のメモリが搭載されていること
//+ Windowsの場合,64ビット版の JRE (Java の実行環境)がイ...
//-- インストールしていない場合は,64ビット版の JRE を [[...
+ 『ひまわり』は[[ver.1.7>全文検索システム『ひまわり』/ダ...
** 2.2 「毎日新聞記事データ集用変換パッケージ」のインスト...
+ [[「毎日新聞記事データ集用変換パッケージ」>https://csd....
+ 『ひまわり』を起動し,ダウンロードしたファイルを『ひま...
* 3.変換手順 [#j99c5630]
** 3.1 毎日新聞記事データの配置 [#vc95c8d5]
+ 毎日新聞のテキストデータを格納するために,「Mainichi」...
+ インポートする毎日新聞のファイルをMainichiフォルダにセ...
- Mainichi
- 1994
- mai94.txt
- 1995
- mai95.txt
:
- 2002
- mai2002a.txt
- mai2002b.txt
:
** 3.2 インポートの実行 [#na449f5c]
+ 『ひまわり』を起動して下さい。
+ 3.1で作成したMainichiフォルダを『ひまわり』にドラッグ&...
+ インポート設定用のウィンドウの「詳細オプション」をクリ...
-- 「テキスト変換」オプションのメニューから「mainichi.htd...
-- 「設定ファイル(テンプレート)」オプションのメニューか...
-- 「サブコーパスを作る」オプションにチェックを入れて下さ...
-- &color(red){1年分しかインポートしない場合は,};「変換...
--- 「変換対象データのフォルダ」の末尾がMainichiで終わる...
--- 「コーパス名」をMainichiに書き換える。(例:1994 → M...
#br
#ref(./import_mainichi.png,70%)
#br
+ 「インポート」ボタンを押すと,インポートの処理が開始し...
+ &color(red){「毎日新聞記事データ集用変換パッケージ」の...
* 4.利用方法 [#f41daeb2]
** 4.1 検索方法 [#r46250bd]
+『ひまわり』を起動し,[ファイル]→[コーパス選択]で,Maini...
+ これで,インポートしたデータを検索できる状態になります...
** 4.2 検索結果 [#tdabd611]
|列名|内容|h
|タイトル|記事見出し|
|面種|記事の面種|
|年|記事を含む新聞の発行年|
|月|記事を含む新聞の発行月|
|日|記事を含む新聞の発行日|
|朝/夕刊|朝刊,夕刊の別|
|地域|大阪版の記事の場合,大阪となる。本社版の場合は,空欄|
|文字数|記事に含まれる文字数|
「毎日新聞記事データ集」の仕様は,[[日外アソシエーツ>ht...
- 大阪版の記事の場合,元データでは,記事見出しの末尾に「...
- 著作権がフラグが「著作権無」の記事は,記事本文を空欄し...
**アンケート [#e7aba476]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.o...
</div>
}}
ページ名: