[PukiWiki]

全文検索システム『ひまわり』/TED字幕テキストの利用 の変更点

Top/全文検索システム『ひまわり』/TED字幕テキストの利用

  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 全文検索システム『ひまわり』/TED字幕テキストの利用 へ行く。
  • 全文検索システム『ひまわり』/TED字幕テキストの利用 の差分を削除

#author("2021-04-22T11:13:09+00:00","default:rd","rd")
#author("2021-09-07T15:11:47+09:00","default:rd","rd")
[[全文検索システム『ひまわり』]]


//&size(20){&color(red){本ページは現在構築中です};};

RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2020-08-04
#br

* 1.概要 [#x0562e5e]
 このページでは,[[TED>https://www.ted.com/]]の字幕データを『ひまわり』で利用する方法について説明します。ここで紹介する方法を用いれば,日本語で検索し,対応する英語字幕と併記して結果を表示する,といったようなことを実現できます。

 なお,TEDの字幕テキストは,[[Creative Commons BY-NC-ND で公開>https://www.ted.com/about/our-organization/our-policies-terms/ted-talks-usage-policy]]されており,『ひまわり』用に変換したデータを配布できないため,字幕データから『ひまわり』形式データへの変換パッケージとして公開します。

 また,ここで説明する変換方法は,&color(red){Windows (64ビット版)};を前提とします。それ以外の環境を使用している場合は,Perlの変換スクリプトを[[GitHubで公開>https://github.com/himawari-san/TED2Himawari]]していますので,直接実行してください。


// 本方法を用いることにより,2言語パラレル

* 2.準備 [#a003392e]
+ [[WIT3>https://wit3.fbk.eu/#releases]]で公開されている[[Latest version of XML files of the TED Talks (April 2016)>https://drive.google.com/file/d/1Cz1Un9p8Xn9IpEMMrg2kXSDt0dnjxc4z/view?usp=sharing]]から2言語分の字幕のXMLデータをダウンロードし,展開(解凍)してください(本ページ作成時と異なり,2021-04-22の時点では,全言語が1ファイルにアーカイブされていました。解凍後に当該ファイルを探してください)。
-- 例:日本語(ted_ja-20160408.xml),英語(ted_en-20160408.xml)&br;(この場合,2001講演になります)
+ 変換パッケージをダウンロードして,展開(解凍)してください。
--  [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Himawari/ted2himawari_20200804.zip]] (ver.20200804, 151MB)
--- &color(red){Windows環境(64ビット版)};用です。
--- 本パッケージには,[[Strawberry Perl>http://strawberryperl.com/]] が同梱されています。
--- 本パッケージ利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。

* 3.変換 [#j99c5630]
([[ビデオチュートリアル>https://youtu.be/CzH8RcDtorg]])

+ 展開した変換パッケージのフォルダ構成を確認してください。
-- Package フォルダ
-- perl フォルダ
-- TED フォルダ
-- henkan.bat
-- ted2himawari.pl
+ TEDフォルダに,「2.準備」でダウンロードした二つのXMLデータをコピーしてください。
+ コピーしたXMLファイルをlang1.xml, lang2.xmlとリネームしてください。
-- lang1.xmlのほうが全文検索の対象となる「第1言語」とします。
-- lang2.xmlのほうは,lang1.xmlの検索結果と対応付けて検索される「第2言語」です。後述のとおり,第2言語も検索できますが,あくまで補助的な位置づけだと考えてください。
+ henkan.bat をダブルクリックしてください。DOS窓(黒いウィンドウ)が立ち上がり,変換が始まります。DOS窓が閉じたら,変換は完了です。数分かかります。
+ 変換パッケージのPackageフォルダの中にあるTEDフォルダ(Package → Corpora → TED)に corpus.xml が生成されていることを確認してください。ファイルサイズは,236935KBとなるはずです。
+ 『ひまわり』を起動してください。
+ Package フォルダを『ひまわり』にドラッグ&ドロップし,作成したTEDパッケージをインポートします。成功すれば,『ひまわり』へのインポートは完了です。
-- インポート中に,次のエラーが出た場合,[ファイル]→[コーパス選択]でTED以外のコーパスを選択し,『ひまわり』を再起動後に,再度インポートを実行してください。
 インストール中に問題外が発生しました。インポートを中止します。…(中略)… 別のプロセスが使用中です。
+ 最後に,検索を高速に行うために,[ツール]→[構築]→[インデックス生成]を実行してください。処理には,数分〜十数分かかります。この処理を行わないと,全文検索できません。
+ インデックス生成が終了すると,TEDパッケージが検索できる状態になっています。なお,別のコーパスを使用した後,再びTEDパッケージを検索する場合,[ファイル]→[コーパス選択]でTEDを選んでください。

* 4.利用方法 [#v23210fa]
** 検索対象 [#be141d04]
- 本文: 第1言語を全文検索します。
- 本文(正規表現): 第1言語を正規表現で全文検索します。
- 第2言語: 第2言語を検索します。キー欄(4.2節参照)には,対応する第1言語の発話が表示されます。

** 4.2検索結果 [#tdabd611]
- 検索結果をダブルクリックすると,講演全体の発話がWebブラウザに表示されます。

|列名|内容|h
|前文脈|キーの文字列の前文脈|
|キー|検索キーと一致した文字列|
|後文脈|キーの文字列の後文脈|
|Title|TEDの講演タイトル|
|Speaker|TEDの講演者|
|Language2|キーと対応する第2言語の発話(前後1発話を含む)|
''注意:''
- ここでいう一つの「発話」とは,1字幕を表します。
- Language2欄の値は,次のルールで作成しています。したがって,第2言語で検索したとき,第2言語の同じ発話に複数マッチします。
++ キーの発話の時間情報と一致する第2言語の発話を探す。
++ キーの発話の時間情報を基準として,第2言語の前後の1発話を1の発話の前後に連結する。区切り記号は," /// "です。
- 字幕テキストのためか,第1言語側も同じ発話が連続して記述されている場合があります。

//|列名|内容|h
//|タイトル|記事見出し|
//|面種|記事の面種|
//|年|記事を含む新聞の発行年|
//|月|記事を含む新聞の発行月|

//*アンケート [#u7dd9448]
// よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。
**アンケート [#l0498f1d]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UOU44MDZVQkxLV0MzVzdNV1dJSlc0UDNGTi4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe>
</div>
}}

//#qa1(masaya,masaya,[himawari-ted_20200804],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS