日本古典籍データセット

日本語の歴史的典籍の国際共同研究ネットワーク構築計画においてデジタル化された古典籍のデータを、日本古典籍データセットとして公開するウェブサイトです。現在は国文学研究資料館が所蔵するオープンデータを中心に提供します。

オープンデータの一覧を見る

2016年11月の公開では、『源氏物語』『徒然草』ほか、一度は耳にしたことがある日本古典の名作を一挙に公開します。これは、小・中・高校の教育用教材や、年賀状の作成などにも自由に活用できます。特に注目すべきデータを見てみましょう。

源氏物語 徒然草 日本古典文学史 貴重書 奈良絵本

2016年11月現在、日本古典籍データセットの規模は700点(158,455コマ)ですが、今後も規模を拡大していく計画ですので、どうぞご期待下さい。

データ概要

古典籍画像データ 700点の各作品について、その全冊(約16万コマ)のJPEG形式の画像データです。これらは国文学分野のほか、国文学研究資料館で収集した、医学や理学、産業など多分野の古典籍を含んでいます。
書誌データ 700点の各作品の書誌データをCSV形式でまとめたものです。国文学研究資料館で公開している「日本古典籍総合目録データベース」より、書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています。
本文テキストデータ 一部の作品については、その翻刻本文テキストデータを付しています。
タグデータ 一部の作品については、国文学研究資料館で付与作業を行っている、1枚1枚の画像に対する文中の固有名詞のタグ情報もCSV形式のデータとして提供します。

一括ダウンロード用のZIPファイルは、最小で1.24MB最大で12599.65MBとなります。また700点すべてのZIPファイルをダウンロードすると約315GBに達しますので、データサイズには十分にご注意ください。

download日本古典籍データセットリスト 2016年11月現在(XLSX形式)

download日本古典籍データセットリスト 2016年11月現在(CSV形式)

データパッケージ

画像は不要で、書誌データや本文テキストデータのみをダウンロードしたいという方のために、書誌データや本文テキストデータのみをまとめたパッケージを用意しました。

downloadメタデータパッケージ 2016年11月10日更新(ZIP 661KB)

download本文パッケージ 2016年11月17日更新(ZIP 5404KB)

ライセンス

クリエイティブ・コモンズ・ライセンス
日本古典籍データセット』(国文学研究資料館所蔵)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

ご利用の際には、例えば以下のような表示をお願いします。

『日本古典籍データセット』(国文研所蔵)

また可能な場合には、データ提供元である人文学オープンデータ共同利用センターへのリンクをお願いします。

提供:人文学オープンデータ共同利用センター

データ提供方法・注意事項

画像閲覧ページでは、画像アクセスの国際的な規格であるIIIFに準拠したブラウザを用意し、画像内容を確認しながら1コマずつダウンロードできます。

書籍としてのまとまりを一括りとした単位でもダウンロード可能ですが、ZIPファイルのサイズがかなり大きくなりますので、ご注意下さい。

問い合わせ先

データ・資料に関する問い合わせ窓口 (国文研)

国文学研究資料館 古典籍共同研究事業センター
電子メール:cijinfo [at] nijl.ac.jp
電話: 050-5533-2988

ウェブサイトに関する問い合わせ窓口 (CODH)

情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター
電子メール:kitamoto [at] nii.ac.jp

参考文献

更新情報

2016-11-17

日本古典籍データセットに8点の本文テキストデータを追加しました。追加したのは当世料理万宝料理秘密箱膳部料理抄料理物語日用惣菜俎不時珍客即席庖丁料理方心得之事新編異国料理料理秘伝抄です。

2016-11-16

日本古典籍データセットに、書誌データや本文テキストデータのみをまとめたパッケージを用意しました。画像が不要な方は、書誌や本文テキストのみをダウンロードできます。

2016-11-10

日本古典籍データセットを公開しました(ニュース)。

先行公開版からご利用の方へのお知らせ

「日本古典籍データセット」は、2015年11月から国立情報学研究所 データセット共同利用研究開発センターの情報学研究データリポジトリで、先行公開版として公開していた「国文研古典籍データセット(第0.1版)」の正式公開版に相当するものです。今後はこちらで公開を継続します。

正式公開版への移行にあたって、データ提供方法が以下のように変更となりましたので、先行公開版からの利用者の方はご注意下さい。

1. 古典籍のIDが変更になりました。先行公開版では「NIJL0001」のように公開用のIDを付与していましたが、正式公開版では「国文研書誌ID」を利用することにしました。この変更は、今後のDOI(デジタルオブジェクト識別子)付与などオープンサイエンスへの対応を見据えたものです。これに合わせて画像ファイル名やフォルダ構造なども変更しています。

2. 先行公開版では「分野別一括ダウンロード」を用意していましたが、点数の増加や分類の多様化に伴い、これを廃止することにしました。正式公開版では、必要な古典籍を1点ずつダウンロードして下さい。

3. 先行公開版ではZIPファイルを一括ダウンロードしないと画像の内容を確認できませんでしたが、正式公開版ではIIIFに対応した画像ビューアー(IIIF Curation Viewer)を用意することで、画像の内容を確認してから一括ダウンロードしたり、必要な画像を個別にダウンロードしたりできるようになりました。