#author("2023-03-13T16:50:57+09:00","default:rd","rd") #author("2023-03-30T00:33:34+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] * YouTube [[チャンネル>https://www.youtube.com/channel/UChTJYN0T_n5-1bnnNOAbUSA]] [#l8266bbe] // (*) がついているビデオ以外は,字幕のみで,音声はついていません。 ** 『ひまわり』のインストール [#m4d747d1] - [[インストール(Windows)>https://youtu.be/KMlIZiZj8JY]] //- [[インストール(Windows)>https://youtu.be/Mx-eSN3IzkA]] - [[インストール(macOS)>https://youtu.be/EaT9X3MxN_o]] ** 各種パッケージ(言語資料)のインストール [#k5650fb8] - [[『名大会話コーパス』の例>https://youtu.be/hxsYLV9s_Rw]] - [[『青空文庫』パッケージの例>https://youtu.be/mHEskblv5fs]] //- [[『名大会話コーパス』の例>https://youtu.be/FP09uddp1wo]] //- [[『青空文庫』パッケージの例>https://youtu.be/6nZKGYVN-_c]] ** さまざまな機能 [#x4a2ff29] - [[ソート>https://youtu.be/jWKLAZWLeYU]] - [[絞り込み>https://youtu.be/RJ6lVOOhm04]] - [[検索結果などの集計>https://youtu.be/Px3a0Co1AUk]] - [[検索結果からの抽出(ランダム抽出,検索数制限など)>https://youtu.be/UxHsrlixeXU]] - [[サブコーパス>https://youtu.be/CaMD6B4TzJo]] - 付与されているタグの集計(作成予定) ** 正規表現 [#ye7d6b4f] - [[照合位置 ^ $>https://youtu.be/VwRVRuRk28U]] - [[カタカナ,漢字,ひらがな文字列の抽出>https://youtu.be/pznXeGzfPig]] //- [[文字クラス]] ** 単語検索 [#e3f53c51] - [[単語検索(パート1・名大会話コーパスの「出現形(短単位)」での検索)>https://youtu.be/KPDRHIf9NMs]] ... 高速ですが,限定的な正規表現での検索になります - [[単語検索(パート2・名大会話コーパスの「全文(正規表現,短単位)」での検索)>https://youtu.be/s6DOh2KTRoQ]] ... 通常の正規表現で検索できますが,パート1の方法よりも検索に時間がかかります - [[単語検索(パート3・『青空文庫』パッケージの場合)>https://youtu.be/E4VBsPd6rnE]] - [[単語検索(パート4・総単語数の計測)>https://youtu.be/dSCwN9Xt06k]] ... 『青空文庫』パッケージを例に,作品ごとの単語数を計測し,合算する形でパッケージに収録されている総単語数を求めます。 ** テキストファイルのインポート [#z0b3a6de] - [準備] 形態素解析システムMeCabのインストール -- [[Windows>https://youtu.be/XoZKt-5Qp6I]] -- [[macOS>https://youtu.be/mrzPAQOkRlA]] - [[インポート(基礎編)>https://youtu.be/3DjXOvKQLIQ]] ... 単にテキストファイルをインポートします。 - [[インポート(応用編)>https://youtu.be/Q9pmOBU8o6E]] ... インポート時に形態素解析を行う方法を示します。 - [[形態素解析時のMeCab+UniDicの利用>https://youtu.be/hS4plpw5CG0]] - [[TED字幕テキストの利用>https://youtu.be/CzH8RcDtorg]] -[[『日本語学習者作文コーパス』の利用>https://youtu.be/FYK9DrZG1ZI]] -[[『小中高大生による日本語絵描写ストーリーライティングコーパス』(JASWRIC)>https://youtu.be/Dg6ZcPhi_Jc]] - 日本語諸方言コーパス (COJADS)のCSVデータの利用(インポート方法が更新されたため休止中) //- [[日本語諸方言コーパス (COJADS)のCSVデータの利用>https://youtu.be/8BpCwGFmBjI]]