[PukiWiki]

全文検索システム『ひまわり』/TED字幕テキストの利用

Top/全文検索システム『ひまわり』/TED字幕テキストの利用

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2020-08-04
 

1.概要†

 このページでは,TEDの字幕データを『ひまわり』で利用する方法について説明します。ここで紹介する方法を用いれば,日本語で検索し,対応する英語字幕と併記して結果を表示する,といったようなことを実現できます。

 なお,TEDの字幕テキストは,Creative Commons BY-NC-ND で公開されており,『ひまわり』用に変換したデータを配布できないため,字幕データから『ひまわり』形式データへの変換パッケージとして公開します。

 また,ここで説明する変換方法は,Windows (64ビット版)を前提とします。それ以外の環境を使用している場合は,Perlの変換スクリプトをGitHubで公開していますので,直接実行してください。

↑

2.準備†

  1. WIT3で公開されているLatest version of XML files of the TED Talks (April 2016)から2言語分の字幕のXMLデータをダウンロードし,展開(解凍)してください(本ページ作成時と異なり,2021-04-22の時点では,全言語が1ファイルにアーカイブされていました。解凍後に当該ファイルを探してください)。
    • 例:日本語(ted_ja-20160408.xml),英語(ted_en-20160408.xml)
      (この場合,2001講演になります)
  2. 変換パッケージをダウンロードして,展開(解凍)してください。
    • 変換パッケージ (ver.20200804, 151MB)
      • Windows環境(64ビット版)用です。
      • 本パッケージには,Strawberry Perl が同梱されています。
      • 本パッケージ利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。
↑

3.変換†

(ビデオチュートリアル)

  1. 展開した変換パッケージのフォルダ構成を確認してください。
    • Package フォルダ
    • perl フォルダ
    • TED フォルダ
    • henkan.bat
    • ted2himawari.pl
  2. TEDフォルダに,「2.準備」でダウンロードした二つのXMLデータをコピーしてください。
  3. コピーしたXMLファイルをlang1.xml, lang2.xmlとリネームしてください。
    • lang1.xmlのほうが全文検索の対象となる「第1言語」とします。
    • lang2.xmlのほうは,lang1.xmlの検索結果と対応付けて検索される「第2言語」です。後述のとおり,第2言語も検索できますが,あくまで補助的な位置づけだと考えてください。
  4. henkan.bat をダブルクリックしてください。DOS窓(黒いウィンドウ)が立ち上がり,変換が始まります。DOS窓が閉じたら,変換は完了です。数分かかります。
  5. 変換パッケージのPackageフォルダの中にあるTEDフォルダ(Package → Corpora → TED)に corpus.xml が生成されていることを確認してください。ファイルサイズは,236935KBとなるはずです。
  6. 『ひまわり』を起動してください。
  7. Package フォルダを『ひまわり』にドラッグ&ドロップし,作成したTEDパッケージをインポートします。成功すれば,『ひまわり』へのインポートは完了です。
    • インポート中に,次のエラーが出た場合,[ファイル]→[コーパス選択]でTED以外のコーパスを選択し,『ひまわり』を再起動後に,再度インポートを実行してください。
      インストール中に問題外が発生しました。インポートを中止します。…(中略)… 別のプロセスが使用中です。
  8. 最後に,検索を高速に行うために,[ツール]→[構築]→[インデックス生成]を実行してください。処理には,数分〜十数分かかります。この処理を行わないと,全文検索できません。
  9. インデックス生成が終了すると,TEDパッケージが検索できる状態になっています。なお,別のコーパスを使用した後,再びTEDパッケージを検索する場合,[ファイル]→[コーパス選択]でTEDを選んでください。
↑

4.利用方法†

↑

検索対象†

  • 本文: 第1言語を全文検索します。
  • 本文(正規表現): 第1言語を正規表現で全文検索します。
  • 第2言語: 第2言語を検索します。キー欄(4.2節参照)には,対応する第1言語の発話が表示されます。
↑

4.2検索結果†

  • 検索結果をダブルクリックすると,講演全体の発話がWebブラウザに表示されます。
列名内容
前文脈キーの文字列の前文脈
キー検索キーと一致した文字列
後文脈キーの文字列の後文脈
TitleTEDの講演タイトル
SpeakerTEDの講演者
Language2キーと対応する第2言語の発話(前後1発話を含む)

注意:

  • ここでいう一つの「発話」とは,1字幕を表します。
  • Language2欄の値は,次のルールで作成しています。したがって,第2言語で検索したとき,第2言語の同じ発話に複数マッチします。
    1. キーの発話の時間情報と一致する第2言語の発話を探す。
    2. キーの発話の時間情報を基準として,第2言語の前後の1発話を1の発話の前後に連結する。区切り記号は," /// "です。
  • 字幕テキストのためか,第1言語側も同じ発話が連続して記述されている場合があります。
↑

アンケート†

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-05-15
    • 観察支援ツール FishWatchr
    2025-04-08
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS
    2024-11-21
    • 成果物の短縮URL
    2024-06-11
    • 観察支援ツール FishWatchr/既知の問題

total:2932
today:2
yesterday:2

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-09-07 (火) 15:11:47