雑誌コーパスXML文書は『太陽コーパス』で採用されている形式です。 詳しい説明は『太陽コーパス CD-ROM解説書』 *1 、『雑誌『太陽』による確立期現代語の研究 ―『太陽』コーパス研究論文集―』 *2 をご覧ください。 また、こちらで文書定義ファイルを公開しています。
雑誌コーパスXMLを構成する要素の一覧です。
種類 | 要素名 | 説明 | 主な属性 | 主な子要素 |
[箱形要素] (ブロック) | 雑誌 | 雑誌1冊分 | 雑誌名・年・号・Version | 記事 |
記事 | 記事1つ分の範囲 | 題名・著者・肩書 | s・引用 | |
引用 | 引用部分 | 出典・話者 | s | |
s | 句読点を単位とした擬似的な文 | [行内要素] | ||
[行内要素] (インライン) | br | 論理改行 | empty | |
段落記号 | 段落の切れ目を表すカギ括弧 | 原文 | empty | |
l | 原文における改行位置 | 位置・元位置 | empty | |
r | 振り仮名 | rt(振り仮名文字列) | [テキスト]・外字 | |
外字 | JIS(X0208)外字 | 文字番号・文字説明 | [テキスト] | |
注 | 修正部分に対する注記 | 原文・種類 | [テキスト]・外字・r | |
踊字 | 踊り字 | 種類・値 | 々ゝゞヽヾなど | |
割書 | 割り書き | [テキスト]・外字・r・注・割書改行 | ||
割書改行 | 割り書き中の改行 | empty | ||
敬意欠字 | 敬意を示すための欠字 | スペース | ||
合字 | 合字 | 「こと」「トモ」など | ||
小書 | 小書きカタカナ | カタカナ | ||
上付 | 上付き小書き文字 | 数字などのテキスト | ||
下付 | 下付き小書き文字 | 数字などのテキスト | ||
非入力対象 | コーパスに含めなかった本文 | 種類・表見出し | empty |
XMLスキーマによる雑誌コーパスの文書定義ファイルです。