[PukiWiki]

全文検索システム『ひまわり』/画像を含んだ資料の作成方法(簡単な漫画を例に)

Top/全文検索システム『ひまわり』/画像を含んだ資料の作成方法(簡単な漫画を例に)

全文検索システム『ひまわり』

1.はじめに†

  • 『ひまわり』の応用例として,画像を含んだ『ひまわり』用 XML 文書の作成と検索の実例を示します。
  • ここでは,4コママンガを『ひまわり』用のXML文書として記述します。
title.png
↑

2.準備†

↑

2.1 サンプルデータのダウンロード†

 「マンガ」サンプルデータを次の場所からダウンロードしてください。本サンプルデータの著作権は,独立行政法人国立国語研究所が保持します。本サンプルデータは,GNU フリー文書利用許諾契約書 (ver.1.2) に定める条件の下で配布します。ダウンロードした時点で,この条件に御同意いただけたものとします。

  • 「マンガ」サンプルデータ (約4MB,zip 形式,2016-02-15 公開)
↑

2.2 インストール†

  1. 『ひまわり』 をインストールしてください。
  2. パッケージをダウンロードし,次の手順でインストールして下さい。
    • 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
    • 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。
      • ダウンロードしたファイルを解凍すると,Himawari_manga_sample フォルダが現れます。その中に次のファイルがあることを確認してください。
        Corpora フォルダ ... 「マンガ」サンプルデータを格納したフォルダ
        config_manga_sample.xml  ... 設定ファイル
      • Corpora フォルダ,config_manga_sample.xml を『ひまわり』がインストールされているフォルダの中に移動してください。
  3. 以上で,インストールは終了です。
↑

3.使用方法†

↑

3.1 検索†

  1. 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある config_manga_sample.xml を読み込んでください。
  2. 「検索文字列」欄に検索したい文字列を入力してください。ここでは,「きゃー」を指定します。「マンガ」サンプルは,データ量が少ないので,データの内容に検索文字列があるかお確かめください。
  3. 「検索」ボタンを押してください。
  4. 検索結果をダブルクリックすると、4コママンガ全体がブラウザに表示される。なお、当該の検索文字列は赤色で表示される。
↑

3.2 結果の見方†

  • 著者: 4コママンガの著者(4節の manga 要素の author 属性の値)
  • タイトル: 4コママンガのタイトル(4節の manga 要素の title 属性の値)
  • コマ番号: 4コママンガのコマ番号(4節の scene 要素の no 属性の値)
  • 発話タイプ: 検索文字列の発話タイプ
    • speech、オノマトペ の別
    • 4節の sound 要素の type 属性の値
  • 発話源: 検索文字列の発話源(4節の sound 要素の source 属性の値)
↑

4.データの内容†

 ページ末の4コママンガを『ひまわり』用 XML 文書で表現したのが、次のデータ である。この XML 文書は、配布パッケージ中の Corpus/Manga/corpus.xml に ある。また、画像データは、1コマ1画像ファイル(png 形式)として分割して ある。

<?xml version="1.0" encoding="UTF-16"?>
<corpus name="漫画コーパス">
<manga title="ひまわりさんたち" author="画:桐生りか,原作:山口昌也" fig="title.png">
    <scene fig="1.png" no="1">
        <sound type="speech" source="陽くん">雨が降りそうだね</sound>
	 <sound type="speech" source="葵ちゃん">降ってきた!</sound>
	 <sound type="onomatopoeia" source="雨">ポツン</sound>
    </scene>
    <scene fig="2.png" no="2">
	 <sound type="speech" source="陽くん,葵ちゃん">きゃー急げ!!</sound>
	 <sound type="speech" source="葵ちゃん">きゃー</sound>
	 <sound type="speech" source="ひまわりお母さん">ぴーす</sound>
    </scene>
    <scene fig="3.png" no="3">
	 <sound type="speech" source="陽くん,葵ちゃん">あー助かった</sound>
    </scene>
    <scene fig="4.png" no="4">
	 <sound type="speech" source="陽くん,葵ちゃん">ありがとう〜</sound>
	 <sound type="speech" source="ひまわりお母さん">ばいばい</sound>
	 <sound type="onomatopoeia" source="おひさま">キラキラ</sound>
    </scene>
</manga>
</corpus>
12
1.png2.png
3.png4.png
34

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS

total:7131
today:1
yesterday:0

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-02-15 (月) 00:00:00