凡例

篆書字体データセットは、印文解読に有用と思われる和漢の字書・字彙類から切り出した篆書字体画像を、機械学習に利用しやすい形式で提供します。データセットをご利用の際には、ライセンス、利用ガイドラインなどを必ずご確認ください。

凡例

1. データセット

「篆書字体データセット」とは、見出し文字となる「親字」のUnicodeに対応するフォルダごとに、篆書体の字形を表す「篆書字体」を、原本画像から一文字ごとに切り出した画像を収めたものを指す。

なお、画像切り出しの仕様は国文研くずし字データセット仕様を参考にするとともに、切り出し作業の一部には切り出しくん2017 IIIF版を使用した。

2. 親字

親字のUnicodeは、原則、掲出された親字の形に従うこととし、字体の統合は行っていない。字書・字彙類を一次資料として、できるだけ原形のまま本データセットに反映・保存すべきであると判断したためである。

ただし、整版本の版下書きの書き癖や正字ではない字体の頻出等を鑑み、切り出す篆書字体を参看した上で、合致・近似する文字や正字に依拠した文字のUnicodeを付与した場合もある。また、Unicodeが付与できない文字に対しては「〓」を付与した。

3. 篆書字体

本データセットは機械学習への利用を前提とするため、以下の条件に該当する篆書字体は切り出し対象としない。

  • ① 篆書字体の下に割り書きされた説明文や、他の篆書字体などが、切り出す篆書字体の矩形に大きく入り込む場合
  • ② 切り出す篆書字体の矩形に、甚だしい汚損・虫損や擦れ等がある場合
  • ③ 切り出す篆書字体の矩形が、丁(頁)を跨ぐ場合
  • ④ 親字に準ずる位置にあり、他書と重複する小篆

ただし、①において、切り出す篆書字体の字形を阻害しない程度であれば、本来の矩形より小さめに切り出し、画像データを作成することとする。また、②において、切り出す文字に補筆(朱)がある場合、それが当該文字の欠損等を正しく補っているものに限り、切り出し対象とする。

なお、白抜き文字や白文陰刻の文字についても切り出し対象としたが、他と区別できるよう文字座標データファイル(coordinate.csv)に記述した。

4. 親字と篆書字体の関係

多くの原本では、1つの親字の下に篆書字体が列挙されているため、親字と篆書字体の関係に解釈の曖昧さはない。しかし、親字が掲出されない場合、および親字が複数掲出される場合は、以下のように解釈を加えることとする。

まず親字が掲出されない場合は、篆書字体に添えられた説明文等を参照し判断した上で、親字のUnicodeを付与することとする。

一方、親字が二文字以上列記されることがある『偏類六書通』については、解釈の違いに応じて2種類のデータセットを提供する。なお、機械学習への利用には第二のデータセットを推奨する。

  1. 第一のデータセット(TE00008~TE00014)は、原本の記述に忠実に、親字のフォルダには異体字もしくは同音字として通用仮借が可能な篆書字体を収めることとする。
  2. 第二のデータセット(TE00015~TE00021)は、字例(示された伝抄古文や他の篆書字体)を解読し、親字のフォルダには同一の文字と解釈可能な篆書字体を収めることとする。

5. 注記情報

Unicodeが付与できない親字(2の「〓」)、切り出し対象としない篆書字体(3の①②③)、あるいは特記すべき事項がある場合は、注記情報ファイル(report.xlsx)に記録し、データセットに別添する。

謝辞

本データセットは、JSPS科研費JP18H05304 / JP20K20325(研究課題:蔵書印データベースの高次利用に向けた情報拡充と篆字学習インターフェイスの開発)の助成を受けたものです。