全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ/テキスト整形と形態素解析
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』/ダウンロード/『名大会話コ...
* テキスト整形 [#g350b78c]
// 原則として,原資料の発話部分には変更を加えていません。
// ただし,処理の都合上,以下のような整形を施しています。
- 記号「*」のうち,それで囲んで書き起こしに自信のない個...
整形前 F107:それでさあ、*すとーんこんとねーど*で。
整形後 F107:それでさあ、《すとーんこんとねーど》で。
-- 注1:聞き取り不能な個所,伏字化個所を示す「*」はその...
整形前 F007:*上*の方の人だから***。
整形後 F007:《上》の方の人だから***。
-- 注2:このように置換された「《」と「》」は,全文検索対...
- タグ記号挿入,削除(括弧対応の不整合を解消)
-- 挿入例1
整形前 <笑い。
整形後 <笑い>
-- 挿入例2
整形前 (あー)(ふーん(へー)(なるほどー)
整形後 (あー)(ふーん)(へー)(なるほどー)
- 不要なスペース類(行頭・行末の全角スペース・タブなど)...
整形前 それ。
整形後 それ。
- 発話者IDと発話との間に挿入される「:」の挿入,削除
-- 挿入例
整形前 F024***だから、うん。
整形後 F024:***だから、うん。
-- 削除例
整形前 F026::所属って何?
整形後 F026:所属って何?
- その他,軽微な修正(全角・半角置換など)
* 形態素解析 [#k75132ac]
- 解析には,形態素解析器MeCab(ver.0.98)および形態素解析...
- 形態素解析後,一部の解析結果に対して,人手修正を行って...
F 記号 F063 伏字化人名
0 名詞 → さん 接尾辞
6 名詞 の 助詞
3 名詞
さん 接尾辞
の 助詞
終了行:
[[全文検索システム『ひまわり』/ダウンロード/『名大会話コ...
* テキスト整形 [#g350b78c]
// 原則として,原資料の発話部分には変更を加えていません。
// ただし,処理の都合上,以下のような整形を施しています。
- 記号「*」のうち,それで囲んで書き起こしに自信のない個...
整形前 F107:それでさあ、*すとーんこんとねーど*で。
整形後 F107:それでさあ、《すとーんこんとねーど》で。
-- 注1:聞き取り不能な個所,伏字化個所を示す「*」はその...
整形前 F007:*上*の方の人だから***。
整形後 F007:《上》の方の人だから***。
-- 注2:このように置換された「《」と「》」は,全文検索対...
- タグ記号挿入,削除(括弧対応の不整合を解消)
-- 挿入例1
整形前 <笑い。
整形後 <笑い>
-- 挿入例2
整形前 (あー)(ふーん(へー)(なるほどー)
整形後 (あー)(ふーん)(へー)(なるほどー)
- 不要なスペース類(行頭・行末の全角スペース・タブなど)...
整形前 それ。
整形後 それ。
- 発話者IDと発話との間に挿入される「:」の挿入,削除
-- 挿入例
整形前 F024***だから、うん。
整形後 F024:***だから、うん。
-- 削除例
整形前 F026::所属って何?
整形後 F026:所属って何?
- その他,軽微な修正(全角・半角置換など)
* 形態素解析 [#k75132ac]
- 解析には,形態素解析器MeCab(ver.0.98)および形態素解析...
- 形態素解析後,一部の解析結果に対して,人手修正を行って...
F 記号 F063 伏字化人名
0 名詞 → さん 接尾辞
6 名詞 の 助詞
3 名詞
さん 接尾辞
の 助詞
ページ名: