全文検索システム『ひまわり』/TED字幕テキストの利用
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
//&size(20){&color(red){本ページは現在構築中です};};
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2020-08-04
#br
* 1.概要 [#x0562e5e]
このページでは,[[TED>https://www.ted.com/]]の字幕デー...
なお,TEDの字幕テキストは,[[Creative Commons BY-NC-ND ...
また,ここで説明する変換方法は,&color(red){Windows (64...
// 本方法を用いることにより,2言語パラレル
* 2.準備 [#a003392e]
+ [[WIT3>https://wit3.fbk.eu/#releases]]で公開されている[...
-- 例:日本語(ted_ja-20160408.xml),英語(ted_en-20160408....
+ 変換パッケージをダウンロードして,展開(解凍)してくだ...
-- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Hi...
--- &color(red){Windows環境(64ビット版)};用です。
--- 本パッケージには,[[Strawberry Perl>http://strawberry...
--- 本パッケージ利用することにより直接的,間接的に生じた...
* 3.変換 [#j99c5630]
([[ビデオチュートリアル>https://youtu.be/CzH8RcDtorg]])
+ 展開した変換パッケージのフォルダ構成を確認してください。
-- Package フォルダ
-- perl フォルダ
-- TED フォルダ
-- henkan.bat
-- ted2himawari.pl
+ TEDフォルダに,「2.準備」でダウンロードした二つのXMLデ...
+ コピーしたXMLファイルをlang1.xml, lang2.xmlとリネームし...
-- lang1.xmlのほうが全文検索の対象となる「第1言語」とし...
-- lang2.xmlのほうは,lang1.xmlの検索結果と対応付けて検索...
+ henkan.bat をダブルクリックしてください。DOS窓(黒いウ...
+ 変換パッケージのPackageフォルダの中にあるTEDフォルダ(Pa...
+ 『ひまわり』を起動してください。
+ Package フォルダを『ひまわり』にドラッグ&ドロップし,...
-- インポート中に,次のエラーが出た場合,[ファイル]→[コー...
インストール中に問題外が発生しました。インポートを中止し...
+ 最後に,検索を高速に行うために,[ツール]→[構築]→[インデ...
+ インデックス生成が終了すると,TEDパッケージが検索できる...
* 4.利用方法 [#v23210fa]
** 検索対象 [#be141d04]
- 本文: 第1言語を全文検索します。
- 本文(正規表現): 第1言語を正規表現で全文検索します。
- 第2言語: 第2言語を検索します。キー欄(4.2節参照)には...
** 4.2検索結果 [#tdabd611]
- 検索結果をダブルクリックすると,講演全体の発話がWebブラ...
|列名|内容|h
|前文脈|キーの文字列の前文脈|
|キー|検索キーと一致した文字列|
|後文脈|キーの文字列の後文脈|
|Title|TEDの講演タイトル|
|Speaker|TEDの講演者|
|Language2|キーと対応する第2言語の発話(前後1発話を含む...
''注意:''
- ここでいう一つの「発話」とは,1字幕を表します。
- Language2欄の値は,次のルールで作成しています。したがっ...
++ キーの発話の時間情報と一致する第2言語の発話を探す。
++ キーの発話の時間情報を基準として,第2言語の前後の1発...
- 字幕テキストのためか,第1言語側も同じ発話が連続して記...
//|列名|内容|h
//|タイトル|記事見出し|
//|面種|記事の面種|
//|年|記事を含む新聞の発行年|
//|月|記事を含む新聞の発行月|
**アンケート [#l0498f1d]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.o...
</div>
}}
終了行:
[[全文検索システム『ひまわり』]]
//&size(20){&color(red){本ページは現在構築中です};};
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2020-08-04
#br
* 1.概要 [#x0562e5e]
このページでは,[[TED>https://www.ted.com/]]の字幕デー...
なお,TEDの字幕テキストは,[[Creative Commons BY-NC-ND ...
また,ここで説明する変換方法は,&color(red){Windows (64...
// 本方法を用いることにより,2言語パラレル
* 2.準備 [#a003392e]
+ [[WIT3>https://wit3.fbk.eu/#releases]]で公開されている[...
-- 例:日本語(ted_ja-20160408.xml),英語(ted_en-20160408....
+ 変換パッケージをダウンロードして,展開(解凍)してくだ...
-- [[変換パッケージ>https://csd.ninjal.ac.jp/archives/Hi...
--- &color(red){Windows環境(64ビット版)};用です。
--- 本パッケージには,[[Strawberry Perl>http://strawberry...
--- 本パッケージ利用することにより直接的,間接的に生じた...
* 3.変換 [#j99c5630]
([[ビデオチュートリアル>https://youtu.be/CzH8RcDtorg]])
+ 展開した変換パッケージのフォルダ構成を確認してください。
-- Package フォルダ
-- perl フォルダ
-- TED フォルダ
-- henkan.bat
-- ted2himawari.pl
+ TEDフォルダに,「2.準備」でダウンロードした二つのXMLデ...
+ コピーしたXMLファイルをlang1.xml, lang2.xmlとリネームし...
-- lang1.xmlのほうが全文検索の対象となる「第1言語」とし...
-- lang2.xmlのほうは,lang1.xmlの検索結果と対応付けて検索...
+ henkan.bat をダブルクリックしてください。DOS窓(黒いウ...
+ 変換パッケージのPackageフォルダの中にあるTEDフォルダ(Pa...
+ 『ひまわり』を起動してください。
+ Package フォルダを『ひまわり』にドラッグ&ドロップし,...
-- インポート中に,次のエラーが出た場合,[ファイル]→[コー...
インストール中に問題外が発生しました。インポートを中止し...
+ 最後に,検索を高速に行うために,[ツール]→[構築]→[インデ...
+ インデックス生成が終了すると,TEDパッケージが検索できる...
* 4.利用方法 [#v23210fa]
** 検索対象 [#be141d04]
- 本文: 第1言語を全文検索します。
- 本文(正規表現): 第1言語を正規表現で全文検索します。
- 第2言語: 第2言語を検索します。キー欄(4.2節参照)には...
** 4.2検索結果 [#tdabd611]
- 検索結果をダブルクリックすると,講演全体の発話がWebブラ...
|列名|内容|h
|前文脈|キーの文字列の前文脈|
|キー|検索キーと一致した文字列|
|後文脈|キーの文字列の後文脈|
|Title|TEDの講演タイトル|
|Speaker|TEDの講演者|
|Language2|キーと対応する第2言語の発話(前後1発話を含む...
''注意:''
- ここでいう一つの「発話」とは,1字幕を表します。
- Language2欄の値は,次のルールで作成しています。したがっ...
++ キーの発話の時間情報と一致する第2言語の発話を探す。
++ キーの発話の時間情報を基準として,第2言語の前後の1発...
- 字幕テキストのためか,第1言語側も同じ発話が連続して記...
//|列名|内容|h
//|タイトル|記事見出し|
//|面種|記事の面種|
//|年|記事を含む新聞の発行年|
//|月|記事を含む新聞の発行月|
**アンケート [#l0498f1d]
#html{{
<div style="text-align:center">
<iframe width="95%" height= "480px" src= "https://forms.o...
</div>
}}
ページ名: