[PukiWiki]

全文検索システム『ひまわり』/TED字幕テキストの利用 の履歴ソース(No.5)


  • 履歴一覧
  • 差分 を表示
  • 現在との差分 を表示
  • 履歴 を表示
  • 全文検索システム『ひまわり』/TED字幕テキストの利用 へ行く。
    • 1 (2020-08-04 (火) 00:54:02)
    • 2 (2020-08-04 (火) 06:06:49)
    • 3 (2020-08-04 (火) 06:20:57)
    • 4 (2020-08-04 (火) 06:35:26)
    • 5 (2020-08-04 (火) 06:39:15)
    • 6 (2020-08-04 (火) 06:39:32)
    • 7 (2020-08-04 (火) 06:43:41)
    • 8 (2020-08-04 (火) 06:44:04)
    • 9 (2020-08-04 (火) 06:53:26)
    • 10 (2020-08-04 (火) 06:56:47)
    • 11 (2020-08-04 (火) 06:57:29)
    • 12 (2020-08-04 (火) 07:37:51)
    • 13 (2020-08-04 (火) 07:37:51)
    • 14 (2020-08-04 (火) 08:34:55)
    • 15 (2020-08-04 (火) 08:35:32)
    • 16 (2020-08-04 (火) 08:44:40)
    • 17 (2020-08-04 (火) 09:54:23)
    • 18 (2020-08-04 (火) 09:54:23)
    • 19 (2020-08-04 (火) 09:54:23)
    • 20 (2020-08-04 (火) 20:39:25)
    • 21 (2020-08-04 (火) 20:40:08)
    • 22 (2020-08-04 (火) 20:41:55)
    • 23 (2020-08-04 (火) 20:43:57)
    • 24 (2020-08-04 (火) 20:59:07)
    • 25 (2020-08-04 (火) 20:59:32)
    • 26 (2020-08-04 (火) 22:14:54)
    • 27 (2020-08-04 (火) 22:16:12)
    • 28 (2020-08-04 (火) 22:27:39)
    • 29 (2020-08-04 (火) 22:32:52)
    • 30 (2020-08-04 (火) 22:46:47)
    • 31 (2020-08-04 (火) 22:49:56)
    • 32 (2020-08-04 (火) 22:50:50)
    • 33 (2020-08-04 (火) 22:53:30)
    • 34 (2020-08-04 (火) 22:53:56)
    • 35 (2020-08-04 (火) 22:54:18)
    • 36 (2020-08-04 (火) 23:44:06)
    • 37 (2020-08-04 (火) 23:46:15)
    • 38 (2020-08-04 (火) 23:53:54)
    • 39 (2020-08-05 (水) 00:12:56)
    • 40 (2020-08-05 (水) 00:15:47)
    • 41 (2020-08-05 (水) 00:18:08)
    • 42 (2020-08-05 (水) 00:24:29)
    • 43 (2020-08-05 (水) 00:24:41)
    • 44 (2020-08-05 (水) 00:24:41)
    • 45 (2020-08-21 (金) 01:44:05)
    • 46 (2020-08-24 (月) 02:26:21)
    • 47 (2020-08-24 (月) 02:29:40)
    • 48 (2020-08-24 (月) 02:32:51)
    • 49 (2020-08-24 (月) 23:42:05)
    • 50 (2020-12-24 (木) 07:01:27)
    • 51 (2021-04-23 (金) 05:09:56)
    • 52 (2021-04-23 (金) 05:12:26)
    • 53 (2021-04-22 (木) 20:13:09)
#author("2020-08-03T12:39:15+00:00","default:rd","rd")
[[全文検索システム『ひまわり』]]


&size(20){&color(red){本ページは現在構築中です};};

RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2020-xx-xx
#br

* 1.概要 [#x0562e5e]
 このページでは,[[TED>https://www.ted.com/]]の字幕データを『ひまわり』で利用する方法について説明します。なお,TEDの字幕テキストは,Creative Commons BY-NC-ND で[[公開>https://www.ted.com/about/our-organization/our-policies-terms/ted-talks-usage-policy]]されており,『ひまわり』パッケージとしては配布できないため,字幕データから『ひまわり』形式データへの変換パッケージとして,公開します。また,ここでは,Windows環境(64ビット版)を前提とします。


// 本方法を用いることにより,2言語パラレル

* 2.準備 [#a003392e]
+ [[WIT>https://wit3.fbk.eu/#releases]]3で公開されている2言語分の字幕のXMLデータをダウンロードし,展開(解凍)してください。
-- [[Latest version of XML files of the TED Talks (April 2016)>https://wit3.fbk.eu/mono.php?release=XML_releases&tinfo=cleanedhtml_ted]]
-- 例:日本語(ted_ja-20160408.xml),英語(ted_en-20160408.xml)
+ 変換パッケージをダウンロードして,展開(解凍)してください。
-- 変換パッケージ
-- 本パッケージには,[[Strawberry Perl>http://strawberryperl.com/]] が同梱されています。


* 3.変換 [#j99c5630]
+ 展開した変換パッケージにTEDフォルダがあることを確認してください。
+ TEDフォルダに,2でダウンロードした二つのXMLデータをコピーしてください。
+ コピーしたXMLファイルをlang1.xml, lang2.xmlとリネームしてください。
-- lang1.xmlのほうが全文検索の対象となります。
-- lang2.xmlのほうは,lang1.xmlの検索結果と対応付けて検索されるという,補助的な位置づけです。
+ henkan.bat をダブルクリックしてください。DOS窓(黒いウィンドウ)が立ち上がり,変換が始まります。うまくいけば,数分で変換が完了します。
+ 変換パッケージの Package -> Corpora -> TED フォルダに corpus.xml が生成されていることを確認してください。ファイルサイズは,236935KBとなるはずです。
+ 『ひまわり』を起動してください。
+ Package フォルダを『ひまわり』にドラッグ&ドロップしてください。成功すれば,『ひまわり』へのインストールは完了です。


* 4.利用方法 [#f41daeb2]
** 4.1 検索方法 [#r46250bd]
//+『ひまわり』を起動し,[ファイル]→[コーパス選択]で,Mainichi(config_mainichi.xml) を読み込んでください。インポート直後はこの状態です。
//+ これで,インポートしたデータを検索できる状態になります。詳しい検索方法については,全文検索システム『ひまわり』の[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]を参照してください。


** 4.2 検索結果 [#tdabd611]

|列名|内容|h
|前文脈|キーの文字列の前文脈|
|キー|検索キーと一致した文字列|
|後文脈|キーの文字列の後文脈|
|Title|TEDの講演タイトル|
|Speaker|TEDの講演者|
|Language2|キーと対応する第2言語の発話(前後1発話を含む)|
```注意:'''
- ここでいう「発話」とは,1字幕を表します。
- Language2欄の値は,キーの発話情報と時間的に近い発話を対応付けているだけです。正確なalignmentを行っているわけではありません。

//|列名|内容|h
//|タイトル|記事見出し|
//|面種|記事の面種|
//|年|記事を含む新聞の発行年|
//|月|記事を含む新聞の発行月|

//*アンケート [#u7dd9448]
// よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。

//#qa1(masaya,masaya,[himawari-mainichi_20180822],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS