「マンガ」サンプルデータを次の場所からダウンロードしてください。本サンプルデータの著作権は,独立行政法人国立国語研究所が保持します。本サンプルデータは,GNU フリー文書利用許諾契約書 (ver.1.2) に定める条件の下で配布します。ダウンロードした時点で,この条件に御同意いただけたものとします。
Corpora フォルダ ... 「マンガ」サンプルデータを格納したフォルダ config_manga_sample.xml ... 設定ファイル
ページ末の4コママンガを『ひまわり』用 XML 文書で表現したのが、次のデータ である。この XML 文書は、配布パッケージ中の Corpus/Manga/corpus.xml に ある。また、画像データは、1コマ1画像ファイル(png 形式)として分割して ある。
<?xml version="1.0" encoding="UTF-16"?> <corpus name="漫画コーパス"> <manga title="ひまわりさんたち" author="画:桐生りか,原作:山口昌也" fig="title.png"> <scene fig="1.png" no="1"> <sound type="speech" source="陽くん">雨が降りそうだね</sound> <sound type="speech" source="葵ちゃん">降ってきた!</sound> <sound type="onomatopoeia" source="雨">ポツン</sound> </scene> <scene fig="2.png" no="2"> <sound type="speech" source="陽くん,葵ちゃん">きゃー急げ!!</sound> <sound type="speech" source="葵ちゃん">きゃー</sound> <sound type="speech" source="ひまわりお母さん">ぴーす</sound> </scene> <scene fig="3.png" no="3"> <sound type="speech" source="陽くん,葵ちゃん">あー助かった</sound> </scene> <scene fig="4.png" no="4"> <sound type="speech" source="陽くん,葵ちゃん">ありがとう〜</sound> <sound type="speech" source="ひまわりお母さん">ばいばい</sound> <sound type="onomatopoeia" source="おひさま">キラキラ</sound> </scene> </manga> </corpus>