[PukiWiki]

全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ/テキスト整形と形態素解析 の変更点

Top/全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ/テキスト整形と形態素解析

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ/テキスト整形と形態素解析 へ行く。
  • 全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ/テキスト整形と形態素解析 の差分を削除

[[全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ]]


* テキスト整形 [#g350b78c]
// 原則として,原資料の発話部分には変更を加えていません。
// ただし,処理の都合上,以下のような整形を施しています。

- 記号「*」のうち,それで囲んで書き起こしに自信のない個所を示すために用いられているものを「《」と「》」に置換
 整形前 F107:それでさあ、*すとーんこんとねーど*で。
 整形後 F107:それでさあ、《すとーんこんとねーど》で。

-- 注1:聞き取り不能な個所,伏字化個所を示す「*」はそのまま
 整形前 F007:*上*の方の人だから***。
 整形後 F007:《上》の方の人だから***。

-- 注2:このように置換された「《」と「》」は,全文検索対象外となり,付属情報として記述されます。

- タグ記号挿入,削除(括弧対応の不整合を解消)
-- 挿入例1
 整形前 <笑い。
 整形後 <笑い>
-- 挿入例2
 整形前 (あー)(ふーん(へー)(なるほどー)
 整形後 (あー)(ふーん)(へー)(なるほどー)

- 不要なスペース類(行頭・行末の全角スペース・タブなど)の削除
 整形前  それ。
 整形後 それ。

- 発話者IDと発話との間に挿入される「:」の挿入,削除
-- 挿入例
 整形前 F024***だから、うん。
 整形後 F024:***だから、うん。
-- 削除例
 整形前 F026::所属って何?
 整形後 F026:所属って何?

- その他,軽微な修正(全角・半角置換など)

* 形態素解析 [#k75132ac]
- 解析には,形態素解析器MeCab(バージョン0.98)および形態素解析辞書UniDic(バージョン###)を用いました。
- 解析には,形態素解析器MeCab(ver.0.98)および形態素解析辞書UniDicを用いました。
- 形態素解析後,一部の解析結果に対して,人手修正を行っています。また,「F063さんの」のように,発話中に出現した発話者IDについては,全体を結合したうえで,「伏字化人名」という品詞を付与しています。
    F       記号          F063    伏字化人名
    0       名詞     →   さん    接尾辞
    6       名詞          の      助詞
    3       名詞
    さん    接尾辞
    の      助詞

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS