[PukiWiki]

全文検索システム『ひまわり』

Top/全文検索システム『ひまわり』

言語データベースとソフトウェア

お知らせ(最新の情報は,Blueskyでも)

  • 『青空文庫』パッケージを更新しました。(2025-04-02)
  • ソースコードをGitHubで公開しました。(2025-03-31)
 

『ひまわり』とは†

 『ひまわり』は,言語研究用に設計された全文検索システムで,次の機能を持っています。

  • XML 文書から特定の文字列を高速に全文検索する機能 (Unicode に対応)
  • 検索結果の KWIC (KeyWord In Context) 表示,および,資料に適した形で閲覧する機能

 『ひまわり』を使うことにより,『太陽コーパス』,『日本語話し言葉コーパス』,『分類語彙表』などの既存の言語資料や,自分で作成した XML 文書を検索することができるようになります。なお,『ひまわり』は Java 言語で記述されており,Windows, Linux, macOS などさまざまな OS 上で動作します。

『太陽コーパス』への適用例

『太陽コーパス』への適用例
(画像をクリックすると大きくなります。)

↑

ダウンロード†

 ご意見・ご感想をダウンロードのページのアンケートフォームからお寄せください。 最新の情報は,Blueskyでもお知らせします。

 ビデオチュートリアルを用意しています。『ひまわり』や言語資料のインストール,使用方法を知りたい方は,ご覧ください。

  • 『ひまわり』 (履歴)
    • ver.1.7.4 (2023-10-25) ... 安定版
    • ver.1.6.10 (2021-06-21) ... 旧版
      • 安定版に問題があれば,旧版も利用できます。問題点については,アンケートなどで指摘していただけると,幸いです。
    • ver.1.8a20250331 (2025-03-31) ... 開発版(ソースコードのみ)
  • 言語資料(インストール方法,資料の切り替え)
    • 『国会会議録』パッケージ(2020-04-10)
    • 『Wikipedia』パッケージ(2016-02-12)
    • 『青空文庫』パッケージ(2024-010-03) ... 16000作品以上を収録
    • 『青空文庫TOP100』パッケージ (2020-05-12) ... アクセス数トップ100作品を収録
    • 「日本文学テキスト」パッケージ(2016-02-15)
    • 「人情本」パッケージ(2016-02-15)
    • 『ふみくら』パッケージ (2022-12-29)
    • 『日本語話し言葉コーパス』サンプルデータ (2021-02-17)
    • 『分類語彙表』パッケージ (2020-07-27)
    • 『名大会話コーパス』パッケージ (2023-03-24)
  • 言語資料(本サイト以外で公開している資料へのリンク)
    • 米国議会図書館蔵『源氏物語』翻字本文
      (国立国語研究所共同研究プロジェクト「文字環境のモデル化と社会言語科学への応用」)
    • 『近代女性雑誌コーパス』,『明六雑誌コーパス』,『国民之友コーパス』 (コーパス開発センター)
  • その他
    • テキストインポート機能用UniDicパッケージ
↑

文書†

  • マニュアル
    • 『ひまわり』利用者マニュアル
    • ビデオチュートリアル(YouTube)
    • 設定ファイル作成の手引き
    • 設定ファイルリファレンスマニュアル(2012-05-24)
  • 講習会資料
    • 利用方法主体の内容(2022-03-01,事前準備,スライド)
    • テキストデータのインポート,タグ付け主体の内容(2021-08-27,事前準備,資料)
    • 全文検索システム『ひまわり』を用いた既存資料の活用(第7回コーパス日本語学ワークショップにおけるチュートリアル資料)(実習用サンプルデータ追加, 2015-05-22)
  • FAQ
  • 既存の資料を『ひまわり』で利用する方法
    • 簡単な検索用データの作成方法1(仕組みを知りたい人向け)
    • 簡単な検索用データの作成方法2(手軽に利用したい人向け)
    • 『毎日新聞記事データ集』を利用する方法 (2022-03-28)
    • 画像を含んだ資料の作成方法(簡単な漫画を例に) (2016-02-15)
    • BNCの利用 (2020-10-13)
    • TED字幕テキストの利用 (2020-08-04)
    • I-JASプレインテキストの利用 (2020-08-24)
    • 日本語諸方言コーパス (COJADS)のCSVデータの利用 (2020-08-25)
    • 小中高大生による日本語絵描写ストーリーライティングコーパス(JASWRIC)の利用 (2022-12-19)
    • 青空文庫の文書を『ひまわり』で利用する方法
      • 簡単な検索用データの作成方法2を参照(テキスト版のインポート方法)
      • 『ひまわり』のマニュアルの5章を参照(一般的なインポート方法)
  • 公表済みコーパス(『ひまわり』を同梱しているもの)のサポート
    • 『日本語日常会話コーパス』有償公開版サポートページ(『ひまわり』&FishWatchr) (2022-03-31)
    • 『ひまわり』で『日本語話し言葉コーパス』を利用する方法 (2023-10-28)
    • 『ひまわり』で『近代女性雑誌コーパス』を利用する方法 (2012-11-08)
    • 『ひまわり』で『太陽コーパス』を利用する方法 (2012-11-08)
    • 『昭和話し言葉コーパス』サポートページ
  • 著作権,および,使用条件
  • バグ情報
  • 実行例 (スクリーンショット)
  • 履歴
  • 『ひまわり』に関連する研究発表
  • 保守されていないコンテンツ
↑

使用上の注意とお願い†

  • 『ひまわり』を使用したことにより生じるいかなる損害についても,大学共同利用機関法人 人間文化研究機構 国立国語研究所は賠償する責任を負いません。そのことをご承知の上,『ひまわり』をご使用ください。
  • 『ひまわり』に対するご意見,不具合のご報告などは,himawari_mail_ninjal.png までお寄せください。また,各ソフトウェアのダウンロードのページでは,アンケートをご用意しています。いただいたご意見,ご報告に対して,お返事することはお約束できませんが,今後の改良に役立てさせていただきますので,ぜひアンケートにお答えください。
  • 本ページの成果物を論文などで引用される場合は,成果物の短縮URLを参照して下さい。
↑

関連リンク†

  • 『ひまわり』支援ツール
  • 『太陽コーパス』
  • JRE

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-05-15
    • 観察支援ツール FishWatchr
    2025-04-08
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS
    2024-11-21
    • 成果物の短縮URL
    2024-06-11
    • 観察支援ツール FishWatchr/既知の問題

total:219041
today:8
yesterday:46

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2025-04-02 (水) 19:52:07