古活字プロジェクト

古活字プロジェクトは、情報学的な手法を用いて「嵯峨本」などの古活字の謎に迫るプロジェクトです。古活字については、古活字とくずし字をご覧ください。

アプリ

「そあん(soan)」は、古活字データセットを加工したデータセットを用いて、現代日本語テキストをくずし字画像に変換/共有するサービスです。

そあん(soan):古活字画像を用いて現代日本語テキストをくずし字画像に変換/共有するサービス

「古活字データセット簡易KWIC検索」は、古活字データセットの各種検索やKWIC表示、版面における出現場所などを表示するツールです。

古活字データセット簡易KWIC検索(@2SC1815J氏作成)

データセット

古活字データセットは、古典籍ごとに分けて配布します。現在は1点の古典籍の古活字データセットを公開しています。

データセットの内容は以下の通りです。

原本補正画像データ 古活字版の公開画像に対して、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。ファイル名の末尾が1だと見開きの右側、2だと左側となります。
古活字ブロック座標データ 原本補正画像データ上で、古活字ブロックを取り囲む長方形の座標(x1, y1, x2, y2)、文字、字母を記録したものです。
古活字ブロック画像データ 「原本補正画像データ」に「古活字ブロック座標データ」を適用して切り抜いた画像であり、古活字ブロックを閲覧しやすくするために提供するものです。

ライセンス

古活字データセットを利用する場合は、以下のライセンスを適用します。

クリエイティブ・コモンズ・ライセンス
古活字データセット』(カラーヌワット・タリン 作成)はクリエイティブ・コモンズ 表示 4.0 国際 ライセンス(CC BY)の下に提供されています。

例えば以下のような表示をお願いします。

『古活字データセット』(カラーヌワット・タリン作成) doi:10.20676/00000416

また古活字データセットの元となった古典籍の所蔵者についても、可能な範囲で明記をお願いします。例えば、上記の『徒然草 2巻』のデータセットの場合は、以下のように記述することができます。

『古活字データセット』(カラーヌワット・タリン作成/国立国会図書館所蔵) doi:10.20676/00000416

ただし、今後はさまざまな機関が所蔵する古典籍から古活字データセットを作成する予定のため、すべてを出典に明記することは難しくなる可能性もあります。その際は、所蔵者一覧をウェブサイト上に明記することとします。現在の所蔵者一覧は以下の通りです。

  1. 国立国会図書館

可能な場合は、データ提供元であるROIS-DS人文学オープンデータ共同利用センターへのリンクをお願いします。

提供:ROIS-DS人文学オープンデータ共同利用センター

研究費

  1. 基幹研究プロジェクト 異分野融合による総合書物学の拡張的研究
  2. 文字を介した視覚的コミュニケーション基盤の創成, 科学研究費 基盤研究(A), 研究代表者 内田 誠一
  3. 歴史ビッグデータ:史料とデータ駆動型モデルを結合する分野横断型研究基盤の構築, 科学研究費 基盤研究(A), 研究代表者 北本 朝展

ニュース

2023-10-03

古活字プロジェクトの成果として、『古活字データセット』を公開しました。