日本古典籍字形データセット

日本古典籍データセットで公開されるデジタル化された古典籍を中心に、翻刻テキストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習データや人間のための学習データとして提供します。

字形データセットの一覧を見る(機械のための学習データ)

文字種ごとの字形一覧を見る(人間のための学習データ)

2017年6月現在、日本古典籍字形データセットの規模は、国文学研究資料館所蔵で日本古典籍データセットにて公開する古典籍、および国文学研究資料館の関係機関が公開する古典籍15点の画像データから切り取った、くずし字3,999文字種の字形データ403,242文字です(文字種のリスト)。

なお、くずし字に関連する情報については、第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜も参考にして下さい。また第21回 PRMUアルゴリズムコンテスト この文字読めますか? 〜くずし字認識にチャレンジ!〜を開催中です(締切2017年8月31日)。

データ概要

原本補正画像データ 日本古典籍データセットほかで公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。
文字座標データ 原本補正画像データ上で、文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。
字形画像データ 「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。
作業報告文書 作業で読めなかった文字に関する情報や、その他の注意事項を記したドキュメントです。

ライセンス

クリエイティブ・コモンズ・ライセンス
日本古典籍字形データセット』(国文学研究資料館ほか所蔵/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター加工)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

データセット全体をご利用の際には、例えば以下のような表示をお願いします。個別の古典籍のみをご利用の場合には、それぞれのページをご覧下さい。

『日本古典籍字形データセット』(国文研ほか所蔵/CODH加工)

また可能な場合には、データ提供元である人文学オープンデータ共同利用センターへのリンクをお願いします。

提供:人文学オープンデータ共同利用センター

データ提供方法・注意事項

書籍ごとに字形をまとめたZIPファイルを提供します。字形画像データは、全部で数万個のファイルが展開されることがありますので、ご注意下さい。

本データセットは翻刻テキストと共に生み出されるデータです。「翻刻」とは人間による高精度のテキスト化を意味し、機械による文字認識(OCR)とは異なります。翻刻作業の補助ツールとしてOCRを使うこともありますが、最終的には人間が文字を決定します。このデータセットの作成にあたっては、熟練した作業者が翻刻作業を進めましたが、それでも読めなかった文字については作業報告文書に情報をまとめています。

くずし字の文字種およびUnicodeコードポイントは翻刻テキストをベースにしているため、異なる字母に由来するくずし字が一つの文字種にまとめられています。一方、Unicodeの異体字については、統合は行っておりません。

対象とする古典籍のテーマが限られているため、出現する文字種には偏りがあります。今後はより多くのテーマに関する古典籍から字形を集める計画です。

問い合わせ先

データ・資料に関する問い合わせ窓口 (国文研)

国文学研究資料館 古典籍共同研究事業センター
電子メール:cijinfo [at] nijl.ac.jp
電話: 050-5533-2988

ウェブサイトに関する問い合わせ窓口 (CODH)

情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター
電子メール:kitamoto [at] nii.ac.jp

参考文献

更新情報

2017-06-06

養蚕秘録 日本古典籍字形データセットにファイル名の誤りが存在しましたので修正しました。なおデータの中身には変更ありません。

2017-06-02

日本古典籍字形データセットにくずし字データを追加し、文字種が1,521→3,999、文字数が86,176→403,242に増加しました。またライセンスはCC BY-SA 4.0で変更ありませんが、表示すべき情報が変わりましたのでご確認下さい。

2017-03-20

第21回 PRMUアルゴリズムコンテスト この文字読めますか? 〜くずし字認識にチャレンジ!〜の告知が始まりました。CODHは日本古典籍字形データセットを提供し、コンテストの企画にも関わります。

2016-11-17

日本古典籍字形データセットを公開しました(ニュース)。