日本古典籍データセットとは、「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」においてデジタル化された古典籍画像などをオープンデータとして公開するものです。現在は国文学研究資料館が所蔵するオープンデータを中心に提供しています。
現在、『源氏物語』『徒然草』『伊勢物語』など、一度は耳にしたことがある日本古典の名作を一挙に公開しています。これは、小・中・高校の教育用教材や、年賀状の作成などにも自由に活用できます。特に注目すべきデータを見てみましょう。
また以下のリストは、検索において特によく使われる検索キーワードを示します。
東海道中膝栗毛 宇治拾遺物語 日本霊異記 懐風藻 浮世風呂 世間胸算用 俊頼髄脳 増鏡 玉勝間 和漢三才図会 本草綱目 農業全書 令義解 呂氏春秋 説苑 とりかへばや物語 先代旧事本紀 和名類聚抄 性霊集 扶桑略記 大和本草 菟玖波集 四十八手 尊卑分脈 菅家文草 類聚三代格
2019年1月現在、日本古典籍データセットの規模は3,126点(609,631コマ)ですが、今後も規模を拡大していく計画です。
日本古典籍データセットリスト 2019年1月現在(XLSX形式)
日本古典籍データセットリスト 2019年1月現在(CSV形式)
データ概要
古典籍画像データ | 各作品の画像データをJPEG形式で保存したものです。国文学分野のほか、国文学研究資料館が所蔵する医学や理学、産業など多分野の古典籍、さらに味の素 食の文化センターが所蔵する料理本等で、国文学研究資料館が撮影した古典籍を含みます。 |
書誌データ | 各作品の書誌データをCSV形式でまとめたものです。国文学研究資料館で公開している「新日本古典籍総合データベース」より、書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています。 |
本文テキストデータ | 翻刻した本文テキストデータをプレーンテキストまたはDOCX形式で保存したものです。一部の作品に限ります。 |
タグデータ | 国文学研究資料館で付与作業を行っている、1枚1枚の画像に対する文中の固有名詞のタグ情報をCSV形式でまとめたものです。一部の作品に限ります。 |
一括ダウンロード用のZIPファイルは最大で約16GB、またすべてのZIPファイルをダウンロードすると1,185GB以上となりますので、データのサイズには十分にご注意ください。
データパッケージ
画像は不要で、書誌データや本文テキストデータ、タグデータのみをダウンロードしたい場合には、サイズが小さく扱いやすい以下のパッケージをご利用下さい。
キュレーション
IIIF Curation Viewerを用いることで、テーマに沿って資料横断的に画像を収集することが可能となります。以下の日本古典籍キュレーションは、古典籍に現れる顔など、テーマごとに画像を収集した解説を提供しています。
ライセンス
『日本古典籍データセット』(国文学研究資料館等所蔵)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。
ご利用の際には、例えば以下のような表示をお願いします。
『日本古典籍データセット』(国文研等所蔵)
また可能な場合には、データ提供元である人文学オープンデータ共同利用センターへのリンクをお願いします。
データ提供方法・注意事項
画像閲覧ページでは、画像アクセスの国際的な規格であるIIIFに準拠したブラウザを用意し、画像内容を確認しながら1コマずつダウンロードできます。
書籍としてのまとまりを一括りとした単位でもダウンロード可能ですが、ZIPファイルのサイズがかなり大きくなりますので、ご注意下さい。
問い合わせ先
データ・資料に関する問い合わせ窓口 (国文研)
国文学研究資料館
電子メール:htddpsinfo [at] nijl.ac.jp
ウェブサイトに関する問い合わせ窓口 (CODH)
情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター
電子メール:kitamoto [at] nii.ac.jp
古典籍データの活用
古典籍データの活用は様々に考えられます。まずこれから派生したデータセットとして、日本古典籍字形データセットおよび江戸料理レシピデータセットがあります。また古典籍データの新しい楽しみ方として、日本古典籍キュレーションを徐々に増やしています。
参考文献
- 北本 朝展, "オープンサイエンスの動向と情報学分野へのインパクト", 電子情報通信学会技術報告, Vol. 116, No. 259, pp. 1-6, 2016年10月
- 北本 朝展, 山本 和明, "人文学データのオープン化を開拓する超学際的データプラットフォームの構築", 人文科学とコンピュータシンポジウム じんもんこん2016, 2016年12月
更新情報
2019-01-30
日本古典籍データセットに書籍データを追加し、点数が1,767→3,126、コマ数が329,702→609,631(約1.8倍)に増えました。特に春日懐紙/万葉集、万葉集/春日懐紙、春日懐紙/万葉集の3点は、重要文化財に指定されている貴重書です。
2017-12-26
日本古典籍データセットに書籍データを追加し、点数が701→1,767、コマ数が158,533→329,702に増えました。
2017-07-25
日本古典籍キュレーションを公開しました。
2017-06-02
日本古典籍データセットに雨月物語を追加し、さらに2016年11月に公開した新編異国料理のコマが一部抜けていた問題を修正した結果、点数が700→701、コマ数が158,455→158,553に増えました。
2017-04-29
国文学研究資料館が新日本古典籍総合データベースの試験公開を開始し、古典籍にDOIが付与されましたので、日本古典籍データセットでもDOIの表示を開始しました。
2016-11-17
日本古典籍データセットに8点の本文テキストデータを追加しました。追加したのは当世料理、万宝料理秘密箱、膳部料理抄、料理物語、日用惣菜俎不時珍客即席庖丁、料理方心得之事、新編異国料理、料理秘伝抄です。
2016-11-16
日本古典籍データセットに、書誌データや本文テキストデータのみをまとめたパッケージを用意しました。画像が不要な方は、書誌や本文テキストのみをダウンロードできます。
2016-11-10
日本古典籍データセットを公開しました(ニュース)。
先行公開版からご利用の方へのお知らせ
「日本古典籍データセット」は、2015年11月から国立情報学研究所 データセット共同利用研究開発センターの情報学研究データリポジトリで、先行公開版として公開していた「国文研古典籍データセット(第0.1版)」の正式公開版に相当するものです。今後はこちらで公開を継続します。
正式公開版への移行にあたって、データ提供方法が以下のように変更となりましたので、先行公開版からの利用者の方はご注意下さい。
1. 古典籍のIDが変更になりました。先行公開版では「NIJL0001」のように公開用のIDを付与していましたが、正式公開版では「国文研書誌ID」を利用することにしました。この変更は、今後のDOI(デジタルオブジェクト識別子)付与などオープンサイエンスへの対応を見据えたものです。これに合わせて画像ファイル名やフォルダ構造なども変更しています。
2. 先行公開版では「分野別一括ダウンロード」を用意していましたが、点数の増加や分類の多様化に伴い、これを廃止することにしました。正式公開版では、必要な古典籍を1点ずつダウンロードして下さい。
3. 先行公開版ではZIPファイルを一括ダウンロードしないと画像の内容を確認できませんでしたが、正式公開版ではIIIFに対応した画像ビューアー(IIIF Curation Viewer)を用意することで、画像の内容を確認してから一括ダウンロードしたり、必要な画像を個別にダウンロードしたりできるようになりました。