[PukiWiki]

『たんぽぽ』,『プリズム』/雑誌コーパスの文書定義 の変更点

Top/『たんぽぽ』,『プリズム』/雑誌コーパスの文書定義

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 『たんぽぽ』,『プリズム』/雑誌コーパスの文書定義 へ行く。
  • 『たんぽぽ』,『プリズム』/雑誌コーパスの文書定義 の差分を削除

[[『たんぽぽ』,『プリズム』]]

*雑誌コーパスの文書定義

雑誌コーパスXML文書は[[『太陽コーパス』>http://www.kokken.go.jp/lrc/index.php?%C2%C0%CD%DB%A5%B3%A1%BC%A5%D1%A5%B9]]で採用されている形式です。
詳しい説明は『太陽コーパス CD-ROM解説書』
((国立国語研究所資料集15『太陽コーパス 日本語データベース 解説書』 2005年 博文館新社))
、『雑誌『太陽』による確立期現代語の研究 ―『太陽』コーパス研究論文集―』
((田中牧郎(2005)「言語資料としての雑誌『太陽』の考察と『太陽コーパス』の設計」『雑誌『太陽』による確立期現代語の研究 ―『太陽』コーパス研究論文集―』国立国語研究所報告122 2005年 博文館新社))
をご覧ください。
また、[[こちら>#j8d9ea39]]で文書定義ファイルを公開しています。

**主な要素
雑誌コーパスXMLを構成する要素の一覧です。
|種類|要素名|説明|主な属性|主な子要素|h
|[箱形要素]&br;(ブロック)|雑誌|雑誌1冊分|雑誌名・年・号・Version|記事|
|~|記事|記事1つ分の範囲|題名・著者・肩書|s・引用|
|~|引用|引用部分|出典・話者|s|
|~|s|句読点を単位とした擬似的な文||[行内要素]|
|[行内要素]&br;(インライン)|br|論理改行||empty|
|~|段落記号|段落の切れ目を表すカギ括弧|原文|empty|
|~|l|原文における改行位置|位置・元位置|empty|
|~|r|振り仮名|rt(振り仮名文字列)|[テキスト]・外字|
|~|外字|JIS(X0208)外字|文字番号・文字説明|[テキスト]|
|~|注|修正部分に対する注記|原文・種類|[テキスト]・外字・r|
|~|踊字|踊り字|種類・値|々ゝゞヽヾなど|
|~|割書|割り書き||[テキスト]・外字・r・注・割書改行|
|~|割書改行|割り書き中の改行||empty|
|~|敬意欠字|敬意を示すための欠字||スペース|
|~|合字|合字||「こと」「トモ」など|
|~|小書|小書きカタカナ||カタカナ|
|~|上付|上付き小書き文字||数字などのテキスト|
|~|下付|下付き小書き文字||数字などのテキスト|
|~|非入力対象|コーパスに含めなかった本文|種類・表見出し|empty|


**文書定義ファイル
**文書定義ファイル[#j8d9ea39]
XMLスキーマによる雑誌コーパスの文書定義ファイルです。
-&ref(zassi.xsd);  雑誌コーパスXML文書定義ファイル
-本ページでは,GPL ライセンスに基づいて,このパッケージを配布しています。 GPLライセンスについてはリンク先(http://www.gnu.org/licenses/gpl.ja.html)をご覧ください。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS