篆書字体データセット

篆書字体データセットは、印文解読に有用と思われる和漢の字書・字彙類から切り出した篆書字体画像を、機械学習に利用しやすい形式で提供します。データセットをご利用の際には、ライセンス利用ガイドライン凡例などを必ずご確認ください。

篆書データベース検索

篆書字体データセットの一覧を見る(機械のための学習データ)

文字種ごとの篆書字体一覧を見る(人間のための学習データ)

2022年8月現在、最新バージョン(v2.0)のデータセットの規模は、12点の資料画像から切り取った篆書体13,213文字種(*1)の文字画像データ181,084文字です。

(*1) 文字種には、Unicodeが付与できない親字「〓」も含むため、実質的な文字種の数を計算する場合は、これを除外する必要があります(参照:凡例)。

データ概要

篆書字体データセットは、複数の組織がIIIF (International Image Interoperability Framework)形式やHTML形式で公開する字書・字彙類に記された多様な篆書字体画像の所在情報とメタデータをまとめたものです。

原本補正画像データ 原本所蔵者が公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。
原本画像アクセスデータ 原本所蔵者がIIIF形式で画像を公開している場合、画像にアクセスするためのIIIFマニフェストやキャンバスに関する情報をまとめたデータです。またHTML形式で画像を公開している場合、画像にアクセスするためのURLをまとめたデータとなります。
文字座標データ 画像データ上で、文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。ただしデータセットの性質上、文字IDに意味のある値が付与できていないものがあります。
字形画像データ 「原本補正画像データ」あるいは「原本画像アクセスデータ」に基づきアクセスした画像データに対して、「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。
索引テキスト 原本画像の版面に合わせた検索用の索引テキストデータです(国立国会図書館所蔵『偏類六書通』のみ)。
注記情報 画像データを作成しなかった文字や親字が入力できない文字および特記すべき事項がある場合の記録です。
凡例・謝辞 データセット作成上の凡例と原本所蔵者等への謝辞です。
原本画像公開元・所蔵者一覧 現在の原本画像と公開元、原本所蔵者の一覧ファイルです。

なおデータセットの仕様は、国文学研究資料館が公開する「くずし字データセット」データ作成基本仕様を参照しつつ、本データセットの独自の仕様を追加したものとなっています。

このデータセットを引用した論文

ライセンス

本データセットは複数の機関が公開する画像を元に作成されています。原本所蔵者ごとにライセンスは異なりますので、篆書字体データセット 書名一覧を参照し、原本ごとのライセンスをご確認下さい。特に「非営利」のCC BY-NC-SAのライセンスを設定するデータセットについては、利用条件を守ってご利用ください。

クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)

クリエイティブ・コモンズ・ライセンス
篆書字体データセット』(国文学研究資料館が複数の機関から収集/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター一般社団法人 人文情報学研究所加工)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンス(CC BY-NC-SA)

クリエイティブ・コモンズ・ライセンス
篆書字体データセット』(国文学研究資料館が複数の機関から収集/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター一般社団法人 人文情報学研究所加工)はクリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンス(CC BY-NC-SA)の下に提供されています。

クレジットの表示

データセットを利用した著作物(論文等)には、データセットの名称およびDOIを表示してください。例えば以下のような表示をお願いします。

『篆書字体データセット』(国文学研究資料館が複数の機関から収集/CODH・DHII加工) doi:10.20676/00000390

複数の原本画像公開元・原本所蔵者が関係しているため、すべてを明示することは求めませんが、篆書字体データセットから派生した新たなデータセットやソフトウェアを公開する場合は、「原本画像公開元・所蔵者一覧ファイル」を配布物に含めてください。

原本画像公開元・所蔵者一覧

タイトル 原本画像公開元 原本所蔵者 データセットID ライセンス
金石韻府 HOLLIS ハーバード大学図書館ハーバード燕京図書館 TE00001 CC BY-SA
摭古遺文 HOLLIS ハーバード大学図書館ハーバード燕京図書館 TE00002 CC BY-SA
聯珠篆文 新日本古典籍総合データベース 新潟大学附属図書館 TE00003 CC BY-SA
万象千字文 新日本古典籍総合データベース お茶の水女子大学附属図書館 TE00004 CC BY-SA
汗簡 新日本古典籍総合データベース 国文学研究資料館 TE00005 CC BY-SA
韻府古篆彙選 国立国会図書館デジタルコレクション 国立国会図書館 TE00006 TE00007 CC BY-SA
偏類六書通 国立国会図書館デジタルコレクション 国立国会図書館 データセット1: TE00008TE00014
データセット2: TE00015TE00021
CC BY-SA
新撰篆書字典 国立国会図書館デジタルコレクション 国立国会図書館 TE00024TE00026 CC BY-SA
印篆貫珠 国立国会図書館デジタルコレクション 国立国会図書館 TE00027TE00038 CC BY-SA
説文解字 東方學デジタル圖書館 京都大学人文科学研究所 TE00039 CC BY-SA
選集漢印分韻 古典籍総合データベース 早稲田大学図書館 TE00040TE00043 CC BY-NC-SA
朝陽閣字鑑 古典籍総合データベース 早稲田大学図書館 TE00044TE00058 CC BY-NC-SA

利用ガイドライン

篆書字体データセットは、複数の機関が公開する和漢の字書・字彙類のデジタル画像から篆書字体に関する文字画像を切り出し、座標情報等を付与して提供するものです。このガイドラインに則った利用をお願いいたします。

当データセットの原本や原本所蔵者、原本画像公開者に敬意を払って利用してください。原本所蔵者や原本画像公開者の貢献を明示することは、画像のオープン化を後押しするにも欠かせないと考えています。

パブリックドメイン作品の利用については、Public Domain Usage Guidelines - Europeana Collectionsなども参考にしてください。

データ提供方法・注意事項

資料ごとに字形をまとめたZIPファイル、および全部をまとめたZIPファイルを提供します。字形画像データは、全部で数万個のファイルが展開されることがありますので、ご注意ください。

文字コードの付与は、原則、原本に掲出された親字の形にできるだけ忠実であることを旨とし、原本の誤字等については適宜修正を加えていますが、篆書字体データセットの最初のバージョンであるため、十分な検討を経ていない文字も残っています。また、資料によっては、2種類のデータセットを提供しています。詳細は、データセットに収めた「凡例」(note.txt)をご参照ください。

メンバー

作成

  • 国文学研究資料館

加工

  • ROIS-DS人文学オープンデータ共同利用センター
  • 一般社団法人 人文情報学研究所

公開

  • ROIS-DS人文学オープンデータ共同利用センター

篆書字体データセット作成委員会

  • 青田寿美(国文学研究資料館 / 総合研究大学院大学 准教授)
  • 益滿新吾(国文学研究資料館 技術補佐員 / 書体研究)
  • 永崎研宣(一般財団法人人文情報学研究所 主席研究員)
  • 古勝隆一(京都大学 准教授)
  • 白須裕之(京都大学 助教)

作成協力者

  • 淺川槙子
  • 王歓
  • 王孫涵之
  • 髙柳浩平
  • 田尻健太
  • 陳佑真
  • 中山陽介

支援

本データセットは、JSPS科研費JP18H05304 / JP20K20325(研究課題:蔵書印データベースの高次利用に向けた情報拡充と篆字学習インターフェイスの開発)の助成を受けたものです。

問い合わせ先

データ・資料に関する問い合わせ窓口 (国文研)

国文学研究資料館 総合窓口(情報サービス係)
電子メール:etsuran [at] nijl.ac.jp

ウェブサイトに関する問い合わせ窓口 (CODH)

情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター
電子メール:kitamoto [at] nii.ac.jp

関連サイト

  1. 蔵書印データベース
  2. 篆字部首検索システム
  3. 国文研くずし字データセット仕様
  4. 切り出しくん2017 IIIF版

バナー画像について

「篆書字体データセット」のバナー画像は、前景に「」、背景に「」「」「」をレイアウトしています。

更新情報

2022-08-11

篆書字体データセットについて、176文字分の画像データが正しく処理できていなかった問題を修正しました。その他の問題も修正した結果、文字数は181,084となりました。

2022-05-11

篆書字体データセットに存在した不具合を解消しました。すでにデータセットをダウンロードした方は、念のため再ダウンロードして下さい。

2022-05-10

篆書字体データセットのバージョン2を公開しました。国立国会図書館、京都大学人文科学研究所、早稲田大学図書館が所蔵する5点の資料を追加し、文字種は7,681→13,213に、文字数は106,448→180,898へと増えました。

2021-05-05

篆書字体データセットでファイル名に不統一があったため修正しました。文字種数は変更ありませんが、文字数は1文字増えて106,448文字となりました。

2021-04-08

篆書字体データセットの一部の画像が表示できない不具合があったため、字形画像データの一部を更新しました。なお文字種数や文字数には変更ありません。

2021-03-31

篆書字体データセットを公開しました。データセットの規模は、7点の資料画像から切り取った篆書体7,681文字種の文字画像データ106,447文字です。