#author("2020-08-03T12:53:26+00:00","default:rd","rd") [[全文検索システム『ひまわり』]] &size(20){&color(red){本ページは現在構築中です};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2020-xx-xx #br * 1.概要 [#x0562e5e] このページでは,[[TED>https://www.ted.com/]]の字幕データを『ひまわり』で利用する方法について説明します。なお,TEDの字幕テキストは,Creative Commons BY-NC-ND で[[公開>https://www.ted.com/about/our-organization/our-policies-terms/ted-talks-usage-policy]]されており,『ひまわり』パッケージとしては配布できないため,字幕データから『ひまわり』形式データへの変換パッケージとして,公開します。また,ここでは,Windows環境(64ビット版)を前提とします。 // 本方法を用いることにより,2言語パラレル * 2.準備 [#a003392e] + [[WIT>https://wit3.fbk.eu/#releases]]3で公開されている2言語分の字幕のXMLデータをダウンロードし,展開(解凍)してください。 -- [[Latest version of XML files of the TED Talks (April 2016)>https://wit3.fbk.eu/mono.php?release=XML_releases&tinfo=cleanedhtml_ted]] -- 例:日本語(ted_ja-20160408.xml),英語(ted_en-20160408.xml) + 変換パッケージをダウンロードして,展開(解凍)してください。 -- 変換パッケージ -- 本パッケージには,[[Strawberry Perl>http://strawberryperl.com/]] が同梱されています。 * 3.変換 [#j99c5630] + 展開した変換パッケージにTEDフォルダがあることを確認してください。 + TEDフォルダに,2でダウンロードした二つのXMLデータをコピーしてください。 + コピーしたXMLファイルをlang1.xml, lang2.xmlとリネームしてください。 -- lang1.xmlのほうが全文検索の対象となる「第1言語」とします。 -- lang2.xmlのほうは,「第2言語」で,lang1.xmlの検索結果と対応付けて検索されるという,補助的な位置づけです。 + henkan.bat をダブルクリックしてください。DOS窓(黒いウィンドウ)が立ち上がり,変換が始まります。うまくいけば,数分で変換が完了します。 + 変換パッケージの Package -> Corpora -> TED フォルダに corpus.xml が生成されていることを確認してください。ファイルサイズは,236935KBとなるはずです。 + 『ひまわり』を起動してください。 + Package フォルダを『ひまわり』にドラッグ&ドロップし,作成したパッケージをインポートします。成功すれば,『ひまわり』へのインポート完了です。 + インポート直後は,作成したパッケージが検索できる状態になっています。別のパッケージが読み込まれている状態では,[ファイル]→[コーパス選択]でTEDを選んでください。 * 4.検索結果 [#tdabd611] |列名|内容|h |前文脈|キーの文字列の前文脈| |キー|検索キーと一致した文字列| |後文脈|キーの文字列の後文脈| |Title|TEDの講演タイトル| |Speaker|TEDの講演者| |Language2|キーと対応する第2言語の発話(前後1発話を含む)| ''注意:'' - ここでいう一つの「発話」とは,1字幕を表します。 - Language2欄の値は,キーの発話情報と時間的に近い発話を対応付けているだけです。正確なalignmentを行っているわけではありません。 //|列名|内容|h //|タイトル|記事見出し| //|面種|記事の面種| //|年|記事を含む新聞の発行年| //|月|記事を含む新聞の発行月| //*アンケート [#u7dd9448] // よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。 //#qa1(masaya,masaya,[himawari-mainichi_20180822],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)