古活字データセット

古活字プロジェクトは、情報学的な手法を用いて「嵯峨本」などの古活字の謎に迫るプロジェクトです。古活字については古活字とくずし字をご覧ください。

データセットのリスト

古活字データセットは、古典籍ごとに分けて配布します。現在は1点の古典籍の古活字データセット（36,869ブロック）を公開しています。

ID	データセット	出典
001	『徒然草 2巻』データセット	[吉田兼好] [著]『[徒然草] 2巻』[1],[慶長・元和年間]. 国立国会図書館デジタルコレクション

データセットの内容は以下の通りです。

原本補正画像データ	古活字版の公開画像に対して、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。ファイル名の末尾が1だと見開きの右側、2だと左側となります。
古活字ブロック座標データ	原本補正画像データ上で、古活字ブロックを取り囲む長方形の座標（x1, y1, x2, y2）、文字、字母を記録したものです。
古活字ブロック画像データ	「原本補正画像データ」に「古活字ブロック座標データ」を適用して切り抜いた画像であり、古活字ブロックを閲覧しやすくするために提供するものです。

古活字データセットを利用する場合は、以下のライセンスを適用します。

『古活字データセット』（カラーヌワット・タリン作成）はクリエイティブ・コモンズ表示 4.0 国際ライセンス（CC BY）の下に提供されています。

例えば以下のような表示をお願いします。

『古活字データセット』（カラーヌワット・タリン作成） doi:10.20676/00000416

また古活字データセットの元となった古典籍の所蔵者についても、可能な範囲で明記をお願いします。例えば、上記の『徒然草 2巻』のデータセットの場合は、以下のように記述することができます。

『古活字データセット』（カラーヌワット・タリン作成／国立国会図書館所蔵） doi:10.20676/00000416

ただし、今後はさまざまな機関が所蔵する古典籍から古活字データセットを作成する予定のため、すべてを出典に明記することは難しくなる可能性もあります。その際は、所蔵者一覧をウェブサイト上に明記することとします。現在の所蔵者一覧は以下の通りです。

可能な場合は、データ提供元であるROIS-DS人文学オープンデータ共同利用センターへのリンクをお願いします。

データセット作成の詳しい情報につきましては、参考文献をご覧ください。