[PukiWiki]

全文検索システム『ひまわり』/ダウンロード/『上方はなしコーパス』パッケージ

Top/全文検索システム『ひまわり』/ダウンロード/『上方はなしコーパス』パッケージ

全文検索システム『ひまわり』

 

本ページは,現在構築中です。

 
 
作成者:竹村明日香 (お茶の水女子大学)
作成協力:山口昌也 (国立国語研究所)
2021-09-xx 作成
 

1.パッケージの概要†

 本パッケージは,[[『上方はなしコーパス』>]]を『ひまわり』用にインポートしたデータである。このデータには,本文とルビの他に,話者と地名の情報も取り込まれている。ただし形態論情報は含まれていないため,検索では文字列検索が基本となる。

 なお,本ページはパッケージの説明を行うものである。パッケージを含むデータの公開は,作成者のサイトで行っている。

↑

2.収録データの内容†

  • 原資料について
    • 雑誌『上方はなし』全49集(1936-1940年発行)に掲載された五代目笑福亭松鶴口述の速記落語56作品(PDF)。具体的な作品名については,竹村明日香「『上方はなしコーパス』について――近代大阪方言の速記落語――」(田中牧郎・橋本行洋・小木曽智信編『コーパスによる日本語史研究――近代編――』ひつじ書房,2021年)を参照のこと。
    • 読みやすさを優先するため,原本の表記は現代仮名遣い・新漢字に改め,踊り字は開き,適宜改行を加えた。
  • 原資料からの変更点
    • 本文・ルビには基本的に変更を加えていない。ただし,検索の利便性を考慮して以下のような処理を行った。
      • カギ括弧・句読点・助詞の誤植と,原文通りの表記では検索が困難と思われるごく一部の漢字にのみ修正を加えた。それらには緑字の補注で修正の旨を記している。
      • 明らかな誤植の文字もそのまま本文に残し,緑字の補注で「ママ」と注記した。
    • 本文には「話者」と「地名」のタグ付けを行った。「話者」はその台詞の発話者を表す。「地名」はその作品の舞台となっている場所を表す。
      • 「話者」には,「話者1」「話者2」「話者3」まで分類がある。
        話者1:当該の台詞の発話者。
        話者2:「話者1」が自身の発話の中に引用した台詞の発話者。
        話者3:「話者1」が引用した「話者2」の発話の中に出てくる台詞の発話者。
      • 「地名」は,「大阪日本橋」「京都三条」のように「都道府県レベル 市町村レベル」の順に並べて記した。旅物などで地名がよくわからない場合は「不明」とした。
    • 本文には以下のような独自のタグ(『ひまわり』に同梱されているresources/htd/diy.htdに基づくタグ)を用いた。
      • t1:1つの作品全体をマークアップするタグ。属性として「集・発行年月・地名」を記述する。
      • t2:1つの発話をマークアップするタグ。属性として「話者」を記述する。
      • u1:本文中の地名をマークアップするタグ。属性として「現在通行している表記形での地名」を記述する。
      • e1:空要素タグ。原本紙面へのリンク先を示す。
↑

3.パッケージのダウンロード†

  • 『上方はなしコーパス』パッケージ(2021-09-xx,約  )
  • 使用条件:
    • クリエイティブ・コモンズ 表示-非営利-改変禁止 4.0 国際 ライセンスで公開する。
      by-nc-nd.png
  • 本パッケージの複製・改変は,個人の利用の範囲内で行なうことが可能である。ただし,再配布は禁止する。本パッケージを利用したことにより直接的・間接的に生じるいかなる損害についても制作者は保証しない。
  • 本コーパスを用いた研究成果等を発表する場合には,以下の情報を明記してください。
    竹村明日香(2021)『上方はなしコーパス』ver.1,URL(20xx年xx月xx日確認)
  • 関連データ(ライセンスはパッケージと同一で,「クリエイティブ・コモンズ表示-非営利-改変禁止 4.0 国際」)
    • [[『上方はなしコーパス』(タグ付きテキスト)>]]
    • [[『表記一覧』>]]
↑

4.利用方法†

↑

4.1 インストール†

(『ひまわり』自体の使い方は,ビデオチュートリアル一覧をご参照ください)

  1. 『ひまわり』 (ver.1.6以上を推奨)をインストールする。
  2. 『上方はなしコーパス』のパッケージをダウンロードする。
  3. 『ひまわり』を起動し,ダウンロードした zip ファイルを『ひまわり』の検索画面上にドラッグ&ドロップする。
  4. 「インストールが終了しました」というメッセージが出れば,インストールは完了。すぐに検索できる状態になる。
  5. 次回以降は,『ひまわり』のツールバー[ファイル]⇒[コーパス選択]から『上方はなしコーパス』を選択して検索できる。
↑

4.2 検索対象の詳細†

(以下では,『上方はなしコーパス』のデータに固有の事柄について説明する。『ひまわり』自体の一般的な使い方については,利用者マニュアルを参照のこと)

本パッケージでは,次の項目を検索することができる。

検索対象
  • 本文(4.2.1)
  • 本文(正規表現)
  • ルビ(rt)完全一致
  • ルビ(rt)部分一致
  • 地名(部分一致)

注意:本コーパスでは,入力した文字列の通りにしか検索できない(例:「浪速」と入力すると「浪速」の例のみが現れ,「浪花」「難波」はヒットしない)。したがって検索の前には必ず[[『表記一覧』>]]を確認して,自分の調べたい語がどのような表記になっているかを確認すること。表記が複数ある場合は正規表現(5.2.2)を用いて調べると良い。『表記一覧』には通常の漢字・仮名表記以外の形で記されているものを五十音順に列挙している。

↑

4.2.1 本文†

 速記落語の本文を検索する。形態論情報がついていないため,入力した通りの文字列が検索される。

  • 検索例1a:「今日」で全文検索をする。
  • 検索例1b:「今日」で全文検索し,その後文脈が「は」で始まる例がヒットする。
検索例1a検索例1b
f2.1a.pngf2.1b.png
↑

4.2.2 本文(正規表現)†

正規表現を用いて速記落語の本文を検索する。検索結果の「キー」欄には,検索式と一致した部分のみが表示される。→【参照】[[「表記一覧」>]]について

 正規表現の一例

[ABC]  A, B, Cのいずれかに一致する。
(A|B)    AまたはBに一致する。
{n}     直前の文字列をn回繰り返す。
  • 検索例2a:[叔小伯]父さん  「叔父さん」「小父さん」「伯父さん」の例にマッチする。
  • 検索例2b:走[らりるれろっ]  「走る」の活用形(五段活用)の例にマッチする。
  • 検索例2c:(縹緻|容色|容貌|器量)   “きりょう”の複数ある漢字表記の例にマッチする。
  • 検索例2d:(くる){2}      「くるくる」の例にマッチする。
検索例2a検索例2b
f2.2a.pngf2.2b.png
検索例2c検索例2d
f2.2c.pngf2.2d.png
↑

4.2.3 ルビ(rt)完全一致†

速記落語の本文に振られたルビを検索する。検索文字列と完全に一致するルビのみが表示される。

  • 検索例3:「ほんま」というルビの例にマッチする。
f2.3.png
↑

4.2.4 ルビ(rt)部分一致†

速記落語の本文に振られたルビを検索する。検索文字列と完全に一致するルビと,部分的に一致するルビの両方が表示される。

  • 検索例4:「あ」のルビと,「あ」を含むルビ(あかん,つきあいetc.)の例にマッチする。
f2.4.png
↑

4.2.5 地名(部分一致)†

 速記落語の本文に出てくる地名を検索する(地名を含んだ河川・建築物なども検索可)。 検索した文字列と部分的に一致する地名が表示されるため,例えば「橋」と入力すると,淀屋橋・今橋通りなどの「橋」を含む固有名詞の地名が表示される。地名は現在一般に通用している表記で検索できる。

  • 検索例5:「川」を含む固有名詞の地名の例にマッチする。
f2.5.png
↑

4.3検索結果†

 検索結果には次の情報が含まれる。

列名備考
前文脈キー(検索文字列)の直前にくる文脈
キー検索文字列
後文脈キー(検索文字列)の直後にくる文脈
Pathフォルダ名とファイル名
タイトル落語の作品名
集当該の例が現れる『上方はなし』の集数
発行年月当該の集が発行された年・月
舞台当該の作品で舞台となっている場所
話者1当該の台詞を話している人物
話者2話者1が引用している台詞を話している人物
話者3話者2が引用している台詞を話している人物
ページ雑誌初版(原本)でのページ数
原本画像雑誌初版(原本)のPDF画像へのリンク
備考当該箇所に関する備考
↑

4.4 『ひまわり』での検索結果の表示画面†

 検索すると,結果が以下のように表示される。

 検索例6:「今日」を検索した結果(一部)

f3.png
↑

4.5 本文データ全体の閲覧†

 『ひまわり』の検索結果画面で任意の行をダブルクリックすると,検索したキーの前後の本文をブラウザで見ることができる。

 検索例7:「今日」(借家怪談)の検索結果のブラウザ表示例

f4.png
  • 検索したキーは赤色で表示される。
  • 緑色の小文字は制作者の補注である。原文の表記に関する注が中心である。
  • 補注にて「●」3,「、」3などと記されているのは,直前の語に附された傍点の形とその個数である。
  • [[▲p.13]]などの青字は初版雑誌(原本)へのリンクである。「▲」は「当該の箇所より上」がこの原本に掲載されていることを表す。
  • 初版雑誌(原本)の紙面は,お茶の水女子大学教育・研究成果コレクションTeaPotに保存されている。原本コピーの一部には大阪府立中之島図書館の所蔵本が含まれている。これらの紙面のみを利用する場合には所蔵館への連絡が必要となる。

付記:『上方はなしコーパス』パッケージは,2016-2018年度科学研究費助成事業(若手研究)「上方落語を用いた近現代京阪方言の総合的研究」(16K16841,研究代表者・竹村明日香)の研究成果の一部である。コーパスの作成にあたっては,国立国語研究所の山口昌也氏,およびお茶の水女子大学日本語・日本文学コースの学生から多大な協力を得た。なお,速記落語の本文の中には今日では差別語に当たる語も含まれているが,古典落語の原文を尊重するためそのままにしておいた。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-07-04
    • 全文検索システム『ひまわり』/履歴
    2025-06-27
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 観察支援ツール FishWatchr/履歴
    • 観察支援ツール FishWatchr
    2025-06-02
    • url
    2025-04-08
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴

total:2318
today:1
yesterday:0

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-12-17 (金) 15:36:49