#author("2020-12-12T08:41:12+00:00","default:rd","rd") [[全文検索システム『ひまわり』]] * YouTube [[チャンネル>https://www.youtube.com/channel/UChTJYN0T_n5-1bnnNOAbUSA]] [#l8266bbe] (*) がついているビデオ以外は,字幕のみで,音声はついていません。 ** 『ひまわり』のインストール [#m4d747d1] - [[インストール(Windows)>https://youtu.be/Mx-eSN3IzkA]] (*) - [[インストール(macOS)>https://youtu.be/EaT9X3MxN_o]] (*) ** 各種パッケージ(言語資料)のインストール [#k5650fb8] - [[『名大会話コーパス』の例>https://youtu.be/FP09uddp1wo]] (*) - [[『青空文庫』パッケージの例>https://youtu.be/6nZKGYVN-_c]] (*) ** さまざまな機能 [#x4a2ff29] - [[ソート>https://youtu.be/jWKLAZWLeYU]] (*) - [[絞り込み>https://youtu.be/RJ6lVOOhm04]] (*) - [[検索結果などの集計>https://youtu.be/Px3a0Co1AUk]] (*) - [[検索結果からの抽出(ランダム抽出,検索数制限など)>https://youtu.be/UxHsrlixeXU]] (*) - [[サブコーパス>https://youtu.be/2cXNeUSvHII]] ** 正規表現 [#ye7d6b4f] - [[照合位置 ^ $>https://youtu.be/-9eyqMc8dhc]] - [[カタカナ,漢字,ひらがな文字列の抽出>https://youtu.be/XlRLTGqrwSA]] //- [[文字クラス]] ** 単語検索 [#e3f53c51] - [[単語検索(パート1・名大会話コーパスの「出現形(短単位)」での検索)>https://youtu.be/KPDRHIf9NMs]] (*) ... 高速ですが,限定的な正規表現での検索になります - [[単語検索(パート2・名大会話コーパスの「全文(正規表現,短単位)」での検索)>https://youtu.be/s6DOh2KTRoQ]] (*) ... 通常の正規表現で検索できますが,パート1の方法よりも検索に時間がかかります - [[単語検索(パート3・『青空文庫』パッケージの場合)>https://youtu.be/E4VBsPd6rnE]] (*) - [[単語検索(パート4・総単語数の計測)>https://youtu.be/7mNaXAVqB98]] ... 『青空文庫』パッケージを例に,作品ごとの単語数を計測し,合算する形でパッケージに収録されている総単語数を求めます。 ** テキストファイルのインポート [#z0b3a6de] - [準備] 形態素解析システムMeCabのインストール -- [[Windows>https://youtu.be/rE3h26321XI]] -- [[macOS>https://youtu.be/JTwwadNspUE]] - [[インポート(基礎編)>https://youtu.be/Z6N5pwd4UVU]] ... 単にテキストファイルをインポートします。 - [[インポート(応用編)>https://youtu.be/wU2_YLs4sig]] ... インポート時に形態素解析を行う方法を示します。 - [[形態素解析時のMeCab+UniDicの利用>https://youtu.be/wUTv4zBYP78]] - [[TED字幕テキストの利用>https://youtu.be/n5sLmiaW7l4]] - [[日本語諸方言コーパス (COJADS)のCSVデータの利用>https://youtu.be/URmnO7XTWeo]]