江戸時代の文字の字形データセットを国文研との協働で構築／機械と人間の学習のためのオープンデータとして公開

江戸時代の文字の字形データセットを国文研との協働で構築／機械と人間の学習のためのオープンデータとして公開
2016 11/17

プレスリリース江戸時代の文字の字形データセットを国文研との協働で構築／機械と人間の学習のためのオープンデータとして公開を発表しました。

大学共同利用機関法人情報・システム研究機構国立情報学研究所（NII、所長：喜連川優、東京都千代田区）は大学共同利用機関法人人間文化研究機構国文学研究資料館（国文研）と共同で、江戸時代の古典籍に書かれたくずし字の1文字ずつの字形画像データや文字座標データなどからなる「日本古典籍字形データセット」を制作し、11月17日から公開しました。本字形データセットは機械学習のための学習データセットとしての利用が期待されるとともに、人間のくずし字学習など教育目的への利用も考えられます。「日本古典籍字形データセット」は二次利用を歓迎するオープンデータとして、情報・システム研究機構の「人文学オープンデータ共同利用センター」準備室のサイトから提供します。

今回公開するのは、江戸初期・寛文年間の料理本『料理秘伝抄』などの古典籍8点の画像データから1文字ずつ切り取ったくずし字1,521文字種の異なる字形のデータ計8万6176件です。字形のもとになった古典籍は、いずれもNIIと国文研が共同で11月10日から公開を始めた「日本古典籍データセット」に収録されています。1件の字形データは、以下の4種類のデータがセットになっています。提供する字形データは今後拡大し、今年度中に合計約40万件を公開する予定です。

原本補正画像データ 翻刻作業を容易にするため、「日本古典籍データセット」で公開している画像に対して、見開き画像を分離し、回転させて正立させる前処理を加えた画像。

文字座標データ 原本補正画像データ上で文字を取り囲む長方形の座標（XYWH）、文字のUnicodeコードポイント、ブロックID、文字IDのデータ。

字形画像データ 文字種ごとに字形を閲覧しやすくするため、「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像。

作業報告文書 翻刻作業で読めなかった文字に関する情報やその他の注意事項を記載した文書。