データセット

データセット一覧

日本古典籍データセット

歴史的典籍NW事業においてデジタル化された古典籍のうち、主に国文研所蔵本を対象に、画像データと書誌データをセットで公開しています。さらに一部の古典籍には作品紹介や翻刻テキストデータ、タグ情報なども付与しています。

江戸料理レシピデータセット

日本古典籍データセットに含まれる江戸の料理本を対象に、江戸の料理文化に関するデータとして、翻刻・現代語訳・レシピ化という作業を加えたレシピデータを提供します。

日本古典籍くずし字データセット

日本古典籍データセットで公開するデジタル化された古典籍を対象に、翻刻テキストの制作過程で生まれるくずし字の切り出された字形と座標情報などを、機械や人間を賢くするための学習データとして提供します。

KMNISTデータセット

日本古典籍くずし字データセットを元に、機械学習研究で著名なMNISTデータセット互換のくずし字データセットKMNISTを作成しました。目的に応じて、Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanjiの3種類のデータセットをご利用下さい。

顔貌コレクション(顔コレ)

日本の絵巻物を中心として古今東西の美術作品から顔貌を切り取って収集し、顔の描き方を比較検討する、美術史研究(特に様式研究)のための研究基盤を構築するプロジェクトです。

浮世絵顔データセット

浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築します。

江戸買物案内

江戸買物案内は、江戸時代に出版された『江戸買物独案内』から広告版面を切り抜くとともに、商人名や職種、居所(住所)、屋号紋などを抽出することで、江戸を中心とする商人に関するビジュアルな商業広告データベースとして構築したものです。

江戸観光案内

江戸観光案内は、江戸時代に出版された観光ガイドブックから挿絵を収集するとともに、名称やキーワードを付与することで、江戸を中心とする観光に関するビジュアルな名所挿絵データベースとして構築したものです。

江戸マップβ版

江戸マップβ版は、国立国会図書館が公開する古地図「江戸切絵図」から地名を抽出して地名データベース化するとともに、現代の地図や情報とも統合することで、歴史ビッグデータや歴史GISの研究や江戸都市空間の地理情報基盤の構築に活用します。

歴史的行政区域データセットβ版

歴史的に存在した市区町村に識別子を付与し、そこに市区町村境界の歴史的変遷を紐づけたデータセットです。1889年の市制・町村制以降の市区町村を対象とし、市区町村境界の変遷を現在のウェブ地図(地理院タイル)上に可視化する「アニメーション表示可能な歴史地図」も提供します。

篆書字体データセット

篆書字体データセットは、印文解読に有用と思われる和漢の字書・字彙類から切り出した篆書字体画像を、機械学習に利用しやすい形式で提供します。

近代雑誌データセット

明治初期から中期にかけて出版された雑誌(近代雑誌)のデジタル化の成果をもとに、OCR学習用データセットの公開やOCRソフトウェア(Kindai-OCR)の開発などを進めます。

データセット利活用の促進

オープンデータ化したデータセットの利活用を促進するために、以下のような試みを行っています。

アイデアソンの開催

  1. 歴史的典籍オープンデータワークショップ~使いたおそう!古典籍データ~

コンテストへのデータセット提供

国文学研究資料館と共同して、LOD Challenge 2016データ提供パートナーとして参加しています。 以下はコンテストへの期待です。

日本古典籍にはかつての日本文化に関する情報や知恵が満載です。しかし、その内容を現代の我々が利用することは決して簡単ではありません。どうしたらそれを活用できるでしょうか。また、どんな場面でどんなデータが使えるようになると嬉しいでしょうか。具体的なシナリオを思い浮かべながら、アイデアを自由に広げて下さい。