篆書字体データセット

篆書字体データセットは、印文解読に有用と思われる和漢の字書・字彙類から切り出した篆書字体画像を、機械学習に利用しやすい形式で提供します。データセットをご利用の際には、ライセンス利用ガイドライン凡例などを必ずご確認ください。

篆書データベース検索

篆書字体データセットの一覧を見る(機械のための学習データ)

文字種ごとの篆書字体一覧を見る(人間のための学習データ)

2021年3月現在、最新バージョン(v1.0)のデータセットの規模は、7点の資料画像から切り取った篆書体7,681文字種(*1)の文字画像データ106,448文字です。

(*1) 文字種には、Unicodeが付与できない親字「〓」も含むため、実質的な文字種の数を計算する場合は、これを除外する必要があります(参照:凡例)。

データ概要

篆書字体データセットは、複数の組織がIIIF (International Image Interoperability Framework)形式で公開する字書・字彙類に記された多様な篆書字体画像の所在情報とメタデータをまとめたものです。

原本補正画像データ 各所蔵機関が公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です(国立国会図書館所蔵『偏類六書通』のみ)。
原本画像アクセスデータ 各所蔵機関がIIIFで公開する画像にアクセスするための、IIIFマニフェスト、キャンバスに関する情報をまとめたデータです(国立国会図書館所蔵『偏類六書通』以外)。
文字座標データ 画像データ上で、文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。ただしデータセットの性質上、文字IDに意味のある値が付与できていないものがあります。
字形画像データ 「原本補正画像データ」あるいは「原本画像アクセスデータ」を用いてアクセスしたIIIF画像データに「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。
索引テキスト 原本画像の版面に合わせた検索用の索引テキストデータです(国立国会図書館所蔵『偏類六書通』のみ)。
注記情報 画像データを作成しなかった文字や親字が入力できない文字および特記すべき事項がある場合の記録です。
凡例・謝辞 データセット作成上の凡例と原本所蔵者等への謝辞です。
原本画像公開元・所蔵者一覧 現在の原本画像と公開元、原本所蔵者の一覧ファイルです。

Mahalo Button

Mahalo Buttonとは?

ライセンス

本データセットは複数の機関が公開する画像を元に作成されており、クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

クリエイティブ・コモンズ・ライセンス
篆書字体データセット』(国文学研究資料館が複数の機関から収集/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター加工)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

データセットを利用した著作物(論文等)には、データセットの名称およびDOIを表示してください。例えば以下のような表示をお願いします。

『篆書字体データセット』(国文学研究資料館が複数の機関から収集/CODH加工) doi:10.20676/00000390

複数の原本画像公開元・原本所蔵者が関係しているため、すべてを明示することは求めませんが、篆書字体データセットから派生した新たなデータセットやソフトウェアを公開する場合は、「原本画像公開元・所蔵者一覧ファイル」を配布物に含めてください。

原本画像公開元・所蔵者一覧

タイトル 原本画像公開元 原本所蔵者 データセットID
金石韻府 HOLLIS ハーバード大学図書館ハーバード燕京図書館 TE00001
摭古遺文 HOLLIS ハーバード大学図書館ハーバード燕京図書館 TE00002
聯珠篆文 新日本古典籍総合データベース 新潟大学附属図書館 TE00003
万象千字文 新日本古典籍総合データベース お茶の水女子大学附属図書館 TE00004
汗簡 新日本古典籍総合データベース 国文学研究資料館 TE00005
韻府古篆彙選 国立国会図書館デジタルコレクション 国立国会図書館 TE00006 TE00007
偏類六書通 国立国会図書館デジタルコレクション 国立国会図書館 データセット1: TE00008 TE00014
データセット2: TE00015 TE00021

利用ガイドライン

篆書字体データセットは、複数の機関が公開する和漢の字書・字彙類のデジタル画像から篆書字体に関する文字画像を切り出し、座標情報等を付与して提供するものです。このガイドラインに則った利用をお願いいたします。

当データセットの原本や原本所蔵者、原本画像公開者に敬意を払って利用してください。原本所蔵者や原本画像公開者の貢献を明示することは、画像のオープン化を後押しするにも欠かせないと考えています。

パブリックドメイン作品の利用については、Public Domain Usage Guidelines - Europeana Collectionsなども参考にしてください。

データ提供方法・注意事項

資料ごとに字形をまとめたZIPファイル、および全部をまとめたZIPファイルを提供します。字形画像データは、全部で数万個のファイルが展開されることがありますので、ご注意ください。

文字コードの付与は、原則、原本に掲出された親字の形にできるだけ忠実であることを旨とし、原本の誤字等については適宜修正を加えていますが、篆書字体データセットの最初のバージョンであるため、十分な検討を経ていない文字も残っています。また、資料によっては、2種類のデータセットを提供しています。詳細は、データセットに収めた「凡例」(note.txt)をご参照ください。

メンバー

作成

  • 国文学研究資料館

加工・公開

  • ROIS-DS人文学オープンデータ共同利用センター

篆書字体データセット作成委員会

  • 青田寿美(国文学研究資料館 / 総合研究大学院大学 准教授)
  • 益滿新吾(国文学研究資料館 技術補佐員 / 書体研究)
  • 永崎研宣(一般財団法人人文情報学研究所 主席研究員)
  • 古勝隆一(京都大学 准教授)
  • 白須裕之(京都大学 助教)

作成協力者

  • 淺川槙子
  • 王歓
  • 王孫涵之
  • 髙柳浩平
  • 田尻健太
  • 陳佑真
  • 中山陽介

支援

本データセットは、JSPS科研費JP18H05304 / JP20K20325(研究課題:蔵書印データベースの高次利用に向けた情報拡充と篆字学習インターフェイスの開発)の助成を受けたものです。

問い合わせ先

データ・資料に関する問い合わせ窓口 (国文研)

国文学研究資料館 総合窓口(情報サービス係)
電子メール:etsuran [at] nijl.ac.jp

ウェブサイトに関する問い合わせ窓口 (CODH)

情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター
電子メール:kitamoto [at] nii.ac.jp

関連サイト

  1. 蔵書印データベース
  2. 篆字部首検索システム
  3. 国文研くずし字データセット仕様
  4. 切り出しくん2017 IIIF版

更新情報

2021-05-05

篆書字体データセットでファイル名に不統一があったため修正しました。文字種数は変更ありませんが、文字数は1文字増えて106,448文字となりました。

2021-04-08

篆書字体データセットの一部の画像が表示できない不具合があったため、字形画像データの一部を更新しました。なお文字種数や文字数には変更ありません。

2021-03-31

篆書字体データセットを公開しました。データセットの規模は、7点の資料画像から切り取った篆書体7,681文字種の文字画像データ106,447文字です。