データセット

データセット一覧

日本古典籍データセット

歴史的典籍NW事業においてデジタル化された古典籍のうち、主に国文研所蔵本を対象に、画像データと書誌データをセットで公開しています。さらに一部の古典籍には作品紹介や翻刻テキストデータ、タグ情報なども付与しています。

日本古典籍字形データセット

日本古典籍データセットで公開するデジタル化された古典籍を対象に、翻刻テキストの制作過程で生まれるくずし字の切り出された字形と座標情報などを、機械や人間を賢くするための学習データとして提供します。

江戸料理レシピデータセット

日本古典籍データセットに含まれる江戸の料理本を対象に、江戸の料理文化に関するデータとして、翻刻・現代語訳・レシピ化という作業を加えたレシピデータを提供します。

近代雑誌データセット

近代の雑誌を撮影した画像データセットを公開します。n2iプロジェクトでは近代文書を対象としたOCRの研究を進める一環として、近代文書の画像データセットを構築しています。

データセット利活用の促進

オープンデータ化したデータセットの利活用を促進するために、以下のような試みを行っています。

アイデアソンの開催

  1. 歴史的典籍オープンデータワークショップ~使いたおそう!古典籍データ~

コンテストへのデータセット提供

国文学研究資料館と共同して、LOD Challenge 2016データ提供パートナーとして参加しています。 以下はコンテストへの期待です。

日本古典籍にはかつての日本文化に関する情報や知恵が満載です。しかし、その内容を現代の我々が利用することは決して簡単ではありません。どうしたらそれを活用できるでしょうか。また、どんな場面でどんなデータが使えるようになると嬉しいでしょうか。具体的なシナリオを思い浮かべながら、アイデアを自由に広げて下さい。