目次
検索対象のテキストをエディタで開いてください。ここでは,芥川龍之介の「蜘蛛の糸」を開いています。
次に書誌情報として,「著者」と「タイトル」を付与することにします。まず,文書の先頭に次のタグを付け加えてください。これを「開始タグ」と言います。
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
上の例のように,半角の <> で囲われた部分がタグです。「simpledoc」は,タグの名前です。このタグの属性として,「タイトル」と「著者」を埋め込みます。= や " は半角であることに注意してください。
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介"> ある日の事でございます。御釈迦様は極楽の蓮池のふちを、独りでぶらぶら御歩き になっていらっしゃいました。池の中に咲いている蓮の花は、みんな玉のようにまっ 白で、そのまん中にある金色の蕊からは、何とも云えない好い匂が、絶間なくあたり へ溢れて居ります。極楽は丁度朝なのでございましょう。
次に,文書の末尾に,開始タグと対応する「終了タグ」の「</simpledoc>」をつけます。これで,開始タグと終了タグで囲まれた範囲の書誌情報が記述できたことになります。
しかし極楽の蓮池の蓮は、少しもそんな事には頓着致しません。その玉のような白 い花は、御釈迦様の御足のまわりに、ゆらゆら萼を動かして、そのまん中にある金色 の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れて居ります。極楽もも う午に近くなったのでございましょう。 </simpledoc>
最後に,今作成した文書全体を「corpus」タグで囲います。文書の先頭には,開始タグの「<corpus>」,文書の末尾には,終了タグの「</corpus>」をつけてください。また,この文書がXMLで記述されていることを表すために,「<?xml version="1.0" encoding="utf-16" ?>」をファイルの冒頭に書き込んでください。
<?xml version="1.0" encoding="utf-16" ?> <corpus> <simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介"> ある日の事でございます。御釈迦様は極楽の蓮池のふちを、独りでぶらぶら御歩き になっていらっしゃいました。池の中に咲いている蓮の花は、みんな玉のようにまっ 白で、そのまん中にある金色の蕊からは、何とも云えない好い匂が、絶間なくあたり へ溢れて居ります。極楽は丁度朝なのでございましょう。 :(中略) しかし極楽の蓮池の蓮は、少しもそんな事には頓着致しません。その玉のような白 い花は、御釈迦様の御足のまわりに、ゆらゆら萼を動かして、そのまん中にある金色 の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れて居ります。極楽もも う午に近くなったのでございましょう。 </simpledoc> </corpus>
以上で,タグ付けは終了です。
3.1 では,一つの作品に対して,書誌情報をつけました。しかし,たくさんの作品を一度に検索したいことがよくあると思います。
そこで,別の作品を追加する方法について説明します。ここでは,同じ芥川龍之介の「猿蟹合戦」を追加してみます。なお,一つの文書を検索できるだけでよい場合は,この節は読み飛ばしてかまいません。
追加方法は簡単で,「蜘蛛の糸」のあとに,「猿蟹合戦」を追加するだけです。エディタで追加するテキストをコピーして,「蜘蛛の糸」のあとに貼り付けましょう。結果は,次のようになります。
<corpus> <simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介"> ある日の事でございます。御釈迦様は極楽の蓮池のふちを、独りでぶらぶら御歩き :(中略) の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れて居ります。極楽もも う午に近くなったのでございましょう。 </simpledoc> <simpledoc タイトル="猿蟹合戦" 著者="芥川龍之介"> 蟹の握り飯を奪った猿はとうとう蟹に仇を取られた。蟹は臼、蜂、卵と共に、怨敵 の猿を殺したのである。――その話はいまさらしないでも好い。ただ猿を仕止めた後、 蟹を始め同志のものはどう云う運命に逢着したか、それを話すことは必要である。な ぜと云えばお伽噺は全然このことは話していない。 :(中略) とにかく猿と戦ったが最後、蟹は必ず天下のために殺されることだけは事実である。 語を天下の読者に寄す。君たちもたいてい蟹なんですよ。 </simpledoc> </corpus>
さらに別の文書を追加したい場合も,同じ方法で追加することができます。ただし,追加した結果の文書全体を「corpus」タグで囲うのを忘れないでください。
次に,作成した文書を保存します。保存するときのファイル名は,corpus.xml としてください。また,すでに,説明したように,文字コードはUnicode (UTF-16,BOM 付き),改行コードは LF としてください。
「サクラエディタ」では,次の設定で保存します。「BOM」がチェックされていることに注意してください。なお,冒頭で紹介した macOS 用のエディタ mi では,BOMの設定がありませんが,UTF-16を選択すれば,BOM付きのファイルになるようです。
作成した文書を『ひまわり』にインストールする前に,正しい形式の XML 文書(well-formed)かどうか,確かめます。
確かめるには,corpus.xml を Web ブラウザにドラッグ&ドロップしてみてください。本ページ作成時点では,Firefox, Chrome, Internet Explorer, Microsoft Edge (Chromium版)で実行できました。Safari やMicrosoft Edge (レガシー版)では使えません。
正しい形式のXML文書だと,次のように文書全体の構造が表示されます。なお,これは,Firefox での実行結果です。
一方,タグの対応関係が正しく記述されないなどの問題があると,次のようにエラーが表示されます。エラーが表示されたら,もう一度 corpus.xml を見直しましょう。
チェックが終わったら,作成した文書(corpus.xml)を『ひまわり』にインストールします。『ひまわり』がまだインストールされていない場合は,『ひまわり』利用者マニュアルを参照して,『ひまわり』のインストールを完了させてください。最新版の『ひまわり』はダウンロードのページにあります。
corpus.xml のインストールは,次の手順で行ってください。
次に,インストールした corpus.xml に対して,「索引付け」を行います。「索引付け」は,高速に全文検索するために必要な処理です。 索引付けの手順は,次のとおりです。
以上で,検索用データ作成は終了です。実際に検索してみてください。検索結果をダブルクリックすると,『ひまわり』用の他の言語資料のように,文書全体が表示されます。
もっと知りたい場合は,『ひまわり』ホームページの「文書 」などを参考にしてください。『ひまわり』用のデータを作成する場合は,特に次の資料を参照してみてください。