古活字プロジェクトは、情報学的な手法を用いて「嵯峨本」などの古活字の謎に迫るプロジェクトです。古活字については古活字とくずし字をご覧ください。
データセットのリスト
古活字データセットは、古典籍ごとに分けて配布します。現在は1点の古典籍の古活字データセット(36,869ブロック)を公開しています。
ID | データセット | 出典 |
---|---|---|
001 | 『徒然草 2巻』 データセット | [吉田兼好] [著]『[徒然草] 2巻』[1],[慶長・元和年間]. 国立国会図書館デジタルコレクション |
データセットの内容は以下の通りです。
原本補正画像データ | 古活字版の公開画像に対して、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。ファイル名の末尾が1だと見開きの右側、2だと左側となります。 |
古活字ブロック座標データ | 原本補正画像データ上で、古活字ブロックを取り囲む長方形の座標(x1, y1, x2, y2)、文字、字母を記録したものです。 |
古活字ブロック画像データ | 「原本補正画像データ」に「古活字ブロック座標データ」を適用して切り抜いた画像であり、古活字ブロックを閲覧しやすくするために提供するものです。 |
ライセンス
古活字データセットを利用する場合は、以下のライセンスを適用します。
『古活字データセット』(カラーヌワット・タリン 作成)はクリエイティブ・コモンズ 表示 4.0 国際 ライセンス(CC BY)の下に提供されています。
例えば以下のような表示をお願いします。
『古活字データセット』(カラーヌワット・タリン作成) doi:10.20676/00000416
また古活字データセットの元となった古典籍の所蔵者についても、可能な範囲で明記をお願いします。例えば、上記の『徒然草 2巻』のデータセットの場合は、以下のように記述することができます。
『古活字データセット』(カラーヌワット・タリン作成/国立国会図書館所蔵) doi:10.20676/00000416
ただし、今後はさまざまな機関が所蔵する古典籍から古活字データセットを作成する予定のため、すべてを出典に明記することは難しくなる可能性もあります。その際は、所蔵者一覧をウェブサイト上に明記することとします。現在の所蔵者一覧は以下の通りです。
- 国立国会図書館
可能な場合は、データ提供元であるROIS-DS人文学オープンデータ共同利用センターへのリンクをお願いします。
古活字自動分割アルゴリズムの概略
- AIページ認識モデルにより、見開き画像をページ(半丁)画像に分割する。
- AIくずし字認識モデルRURIにより、ページ画像からくずし字の文字範囲を示す四角形(以下、矩形)を認識する。
- 文字矩形の座標情報から摺板の枠と画像の傾きを推定する。
- 画像の傾きを補正するために回転させた正立画像に対し、改めてRURIを適用して文字矩形を推定し直す。
- AI行認識モデルにより、行の矩形を推定し、行の中心線の間隔から行幅を計算する。
- 行と文字の矩形から、ページ内の行数と行内の文字数を統計的に推定し、その妥当性を人間が確認する。
- 行数と文字数の推定値に基づき、摺板枠内の縦横の単位長さを推定し、画像上に等間隔の格子グリッドを引く。
- 文字矩形と格子グリッドが交差する場合は、文字が単一の活字ブロック内で連続していると判定する。
- ページ画像を2値化して文字画素を取り出す。そして文字画素と格子グリッドが交差する場合は、連綿文字が単一の活字ブロック内に含まれると判定する。
- 連続しない文字を分割したうえで、連彫活字を含めた活字ブロックを確定する。
- 活字ブロックごとの文字(Unicode)・矩形座標(x1, y1, x2, y2)を集めて古活字データセットを出力する。
データセット作成の詳しい情報につきましては、参考文献をご覧ください。