古活字データセット

古活字プロジェクトは、情報学的な手法を用いて「嵯峨本」などの古活字の謎に迫るプロジェクトです。古活字については古活字とくずし字をご覧ください。

データセットのリスト

古活字データセットは、古典籍ごとに分けて配布します。現在は1点の古典籍の古活字データセット(36,869ブロック)を公開しています。

データセットの内容は以下の通りです。

原本補正画像データ 古活字版の公開画像に対して、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。ファイル名の末尾が1だと見開きの右側、2だと左側となります。
古活字ブロック座標データ 原本補正画像データ上で、古活字ブロックを取り囲む長方形の座標(x1, y1, x2, y2)、文字、字母を記録したものです。
古活字ブロック画像データ 「原本補正画像データ」に「古活字ブロック座標データ」を適用して切り抜いた画像であり、古活字ブロックを閲覧しやすくするために提供するものです。

ライセンス

古活字データセットを利用する場合は、以下のライセンスを適用します。

クリエイティブ・コモンズ・ライセンス
古活字データセット』(カラーヌワット・タリン 作成)はクリエイティブ・コモンズ 表示 4.0 国際 ライセンス(CC BY)の下に提供されています。

例えば以下のような表示をお願いします。

『古活字データセット』(カラーヌワット・タリン作成) doi:10.20676/00000416

また古活字データセットの元となった古典籍の所蔵者についても、可能な範囲で明記をお願いします。例えば、上記の『徒然草 2巻』のデータセットの場合は、以下のように記述することができます。

『古活字データセット』(カラーヌワット・タリン作成/国立国会図書館所蔵) doi:10.20676/00000416

ただし、今後はさまざまな機関が所蔵する古典籍から古活字データセットを作成する予定のため、すべてを出典に明記することは難しくなる可能性もあります。その際は、所蔵者一覧をウェブサイト上に明記することとします。現在の所蔵者一覧は以下の通りです。

  1. 国立国会図書館

可能な場合は、データ提供元であるROIS-DS人文学オープンデータ共同利用センターへのリンクをお願いします。

提供:ROIS-DS人文学オープンデータ共同利用センター

古活字自動分割アルゴリズムの概略

  1. AIページ認識モデルにより、見開き画像をページ(半丁)画像に分割する。
  2. AIくずし字認識モデルRURIにより、ページ画像からくずし字の文字範囲を示す四角形(以下、矩形)を認識する。
  3. 文字矩形の座標情報から摺板の枠と画像の傾きを推定する。
  4. 画像の傾きを補正するために回転させた正立画像に対し、改めてRURIを適用して文字矩形を推定し直す。
  5. AI行認識モデルにより、行の矩形を推定し、行の中心線の間隔から行幅を計算する。
  6. 行と文字の矩形から、ページ内の行数と行内の文字数を統計的に推定し、その妥当性を人間が確認する。
  7. 行数と文字数の推定値に基づき、摺板枠内の縦横の単位長さを推定し、画像上に等間隔の格子グリッドを引く。
  8. 文字矩形と格子グリッドが交差する場合は、文字が単一の活字ブロック内で連続していると判定する。
  9. ページ画像を2値化して文字画素を取り出す。そして文字画素と格子グリッドが交差する場合は、連綿文字が単一の活字ブロック内に含まれると判定する。
  10. 連続しない文字を分割したうえで、連彫活字を含めた活字ブロックを確定する。
  11. 活字ブロックごとの文字(Unicode)・矩形座標(x1, y1, x2, y2)を集めて古活字データセットを出力する。

データセット作成の詳しい情報につきましては、参考文献をご覧ください。