[PukiWiki]

全文検索システム『ひまわり』/ダウンロード/『国会会議録』パッケージ

Top/全文検索システム『ひまわり』/ダウンロード/『国会会議録』パッケージ

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2020-04-10更新(2014-04-01作成)
 

『国会会議録』パッケージの概要†

  • 本パッケージは,『国会会議録検索システム』に収録されている国会の会議録を『ひまわり』用にインポートしたデータです。
  • 本パッケージの作成・配布は,国立国会図書館の許諾をいただいた上で行なっています。本パッケージの使用にあたっては,後述の「パッケージの利用条件」を必ずお読み下さい。
↑

収録データの内容†

  • 収録した会議録
    • サイト:「国会会議録検索システム」
    • 会議名: 本会議,予算委員会(いずれも衆議院と参議院の両院)
    • 期間: 1947年〜2012年
    • 原資料のダウンロード日:2014-03-27, 28 (参議院本会議第180回25号のみ,2016-12-06)
    • 原資料からの変更点
      • 基本的に,会議録の内容に関わる変更は加えていません。
      • 原資料に付与されている HTML タグの変更・削除,および,検索用のタグの付与を行いました。
      • タグ付けなどの自動処理を妨げる,原資料の誤りは手動で修正しています。また,タグ付与された情報(例:発言者,肩書,開催日)は,機械的に処理を行っているため,誤りを含む可能性があります。特に,衆議院予算委員会では,発言者氏名の名前部分を自動補完しています。
  • 生年情報
    • 服部匡氏(同志社女子大学)作成の資料に基づいて付与しています。服部氏の資料は,『歴代国会議員名鑑』編纂委員会編:『歴代国会議員名鑑』(議会制度研究会)などに基づき,作成されています。使用させていただいた資料の一部は,服部氏のホームページで公開されています。
    • 上記資料から生年情報を得られない場合は,発言数100回以上の発言者に関して,Wikipedia および コトバンク(20世紀日本人名事典)などを調査し,付与しています。
    • なお,生年情報の付与は機械的に行っているため,同姓同名の話者が存在した場合などに誤りを含む可能性があります。
↑

パッケージの利用条件†

  • 本パッケージの利用は,非営利,かつ,学術利用に限定します。
  • 本パッケージ(全体・一部を問わない),および,本パッケージの派生物の再配布は,認めません。
  • 検索結果などからの引用を行う場合は,原資料の所在,本パッケージの利用を明記して下さい。
  • 利用の際は,次の点に留意してください:(a) 原資料の一部(第1〜144回)は,画像から機械的に文字を読み取って作成されているため,誤字・脱字などのエラーを含んでいる可能性があります。(b) 原資料は予告なく訂正される可能性があります。
  • 本パッケージを利用したことにより直接的,間接的に生じたいかなる損害について,パッケージ作成者は責任を負いません。
↑

ダウンロード†

  • 『国会会議録』パッケージ(20140327_rev20200410)(履歴,旧版)
    • 本会議版(圧縮時約595MB,解凍時約942MB, ZIP形式)(会議録数:7127,討議部分:約1.43億字,全体:1.48億字)
    • 予算委員会版(圧縮時約1.21GB,解凍時約1.90GB, ZIP形式)(会議録数:3979,討議部分:2.91億字,全体:3.01億字)
 
  • 形態素解析結果の追加パッケージ (20140327_rev20200410, ver.1.6専用,開発版,MeCab ver.0.996)
    • 本会議版(圧縮時約743MB,解凍時約1.35GB, ZIP形式)
    • 予算委員会版(圧縮時約1.5GB,解凍時約2.72GB, ZIP形式)
    • 注:『国会会議録』パッケージのバージョンと同じものを利用のこと
↑

使用方法†

↑

インストール方法†

  1. 『ひまわり』 (ver.1.6以上)をインストールしてください。
  2. ダウンロードしたパッケージのファイルを,起動している『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
  3. インストールが終了すると,インストールしたパッケージに応じて,「本会議」もしくは「予算委員会」が検索できる状態になります。
  4. 本会議,予算委員会の両方のパッケージをインストールした場合は,[ファイル]⇒[コーパス選択]を実行して,コーパスを選択してください。
     
    コーパス名
    本会議国会会議録(本会議)_バージョン番号
    予算委員会国会会議録(予算委員会)_バージョン番号
    両方国会会議録(本会議+予算委員会)_バージョン番号

 以上で,インストールは終了です。

 なお,検索時にメモリ関連のエラーが出る場合は,FAQの「メモリ関連のエラーが出ます」の対処方法をお試し下さい。

↑

形態素解析結果の追加パッケージのインストール方法†

  1. 『ひまわり』ver.1.6 に『国会会議録』パッケージをインストールして下さい。なお,メモリ関連のエラーが発生する場合は,上記のFAQを参照して下さい。
  2. 形態素解析結果の追加パッケージをダウンロードし,ダウンロードしたパッケージのファイルを,起動している『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
  3. インストールが終了すると,[ファイル]⇒[コーパス選択]の「外部DB」欄が選択できるようになるので,「あり(sd)」を選択してください。
↑

検索†

  • 『ひまわり』を起動し,[ファイル]⇒[コーパス選択]で検索したいコーパスを選択してください。
  • 検索対象は,検索文字列入力欄の左のプルダウンメニューから選択してください。
    • 討議部分 ... 討議(発話)の部分だけを検索します。正規表現検索よりも高速です。
    • 討議部分(正規) ... 討議(発話)の部分だけを正規表現検索します。
    • 討議前部分(正規) ... 討議前の記録部分を正規表現検索します。
    • 討議後部分(正規) ... 討議後の記録部分を正規表現検索します。
    • 全体(正規) ... 会議録全体(発話+討議前後の記録部分)を正規表現検索します。
    • 発話者(部分一致) ... 発話者をキーとして検索します。部分一致検索となります。検索結果のキー欄には,発言全体が表示されます。キー欄での表示が見にくい場合は,当該の結果をダブルクリックして,ブラウザで閲覧するなどしてください。
  • 収録している会議録のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一覧]を実行して下さい。
  • 詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。
↑

検索結果†

列名内容
議院参議院,衆議院の別
回国会の開催回
会議名本会議,予算委員会の別
号会議の号
発言者検索結果の発言者(自動抽出)
発言者(正規化)「発言者」中の旧字を新字に変換したもの
肩書き発言者の肩書き(自動抽出)
開催日会議の開催年月日
文字数(討議)検索結果を含む議事録の討議部分の文字数
文字数(全体)検索結果を含む議事録全体の文字数
URL原資料のURL(ダブルクリック時は原資料の閲覧)
↑

データ構造の詳細†

↑

全体構造†

 一つの会議録は,次の三つの部分に分割されています。

  • ヘッダ ... 最初の発話が始まるまでの内容
  • 討議部分 ... 最初の発話から最後の発話までの内容
  • フッタ ... 最後の発話以降の内容

 検索対象の選択における「討議部分」は,上記の「討議部分」と対応します。また,検索対象の選択における「全体」とは上記の三つの部分をすべて含みます。

 なお,発話は行の冒頭に発言者が明記されていることを手がかりに自動認定しています。したがって,国会の開会式冒頭の式辞など,この形式で発言者が記述されていない部分は,発話としていません。

↑

発話部分の構造†

 発話部分には,実際の発話だけでなく,関連する情報が記載されています。それらは,発話自体を検索するときの妨げになるため,いくつかの情報付与を行っています。下記の例は,二つの発話からなる例です。

○議長(国会太郎君)
 本件を採決いたします。(「異議なし」と叫ぶ者あり)
 本件を委員長報告のとおり承認するに賛成の皆さんの起立を求めます。
    〔賛成者起立〕
    ――――◇―――――
 日程第一 平和的目的のための地下の探査

○国会次郎君
 本日は,.....

 1つ目の発話部分は,次の四つの部分に分けられます。この分割は機械的に行っているため,間違いを含む場合もあります。

 四つの部分のうち,検索対象となるのは,下記の「発話本体」だけです。また,表面上,発話本体に含まれる「(「異議なし」と叫ぶ者あり)」のような注記も検索対象とはなりません。なお,最後の発話部分における「付属情報2」は全体構造の「フッタ」となります。

  • 発言者,および,肩書き
    ○議長(国会太郎君)
  • 発話本体
     本件を採決いたします。
     本件を委員長報告のとおり承認するに賛成の皆さんの起立を求めます。
  • 付属情報1
    (「異議なし」と叫ぶ者あり)
  • 付属情報2
        〔賛成者起立〕
        ――――◇―――――
     日程第一 平和的目的のための地下の探査
↑

謝辞†

 本パッケージの公開を許諾してくださった国立国会図書館関係者の方々に感謝申し上げます。

↑

アンケート†

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
  • 講習会
     
    最新の10件
    2025-05-15
    • 観察支援ツール FishWatchr
    2025-04-08
    • 新着情報の履歴
    • 言語データベースとソフトウェア
    • 全文検索システム『ひまわり』/ダウンロード/UniDicパッケージ
    2025-04-02
    • 全文検索システム『ひまわり』
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
    • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
    2025-03-28
    • TEachOtherS
    2024-11-21
    • 成果物の短縮URL
    2024-06-11
    • 観察支援ツール FishWatchr/既知の問題

total:19186
today:1
yesterday:3

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-09-07 (火) 15:25:58