古活字プロジェクトは、情報学的な手法を用いて「嵯峨本」などの古活字の謎に迫るプロジェクトです。古活字については、古活字とくずし字をご覧ください。
アプリ
「そあん(soan)」は、古活字データセットを加工したデータセットを用いて、現代日本語テキストをくずし字画像に変換/共有するサービスです。
そあん(soan):古活字画像を用いて現代日本語テキストをくずし字画像に変換/共有するサービス
「古活字データセット簡易KWIC検索」は、古活字データセットの各種検索やKWIC表示、版面における出現場所などを表示するツールです。
古活字データセット簡易KWIC検索(@2SC1815J氏作成)
データセット
古活字データセットは、古典籍ごとに分けて配布します。現在は1点の古典籍の古活字データセットを公開しています。
ID | データセット | 出典 |
---|---|---|
001 | 『徒然草 2巻』 データセット | [吉田兼好] [著]『[徒然草] 2巻』[1],[慶長・元和年間]. 国立国会図書館デジタルコレクション |
データセットの内容は以下の通りです。
原本補正画像データ | 古活字版の公開画像に対して、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。ファイル名の末尾が1だと見開きの右側、2だと左側となります。 |
古活字ブロック座標データ | 原本補正画像データ上で、古活字ブロックを取り囲む長方形の座標(x1, y1, x2, y2)、文字、字母を記録したものです。 |
古活字ブロック画像データ | 「原本補正画像データ」に「古活字ブロック座標データ」を適用して切り抜いた画像であり、古活字ブロックを閲覧しやすくするために提供するものです。 |
ライセンス
古活字データセットを利用する場合は、以下のライセンスを適用します。
『古活字データセット』(カラーヌワット・タリン 作成)はクリエイティブ・コモンズ 表示 4.0 国際 ライセンス(CC BY)の下に提供されています。
例えば以下のような表示をお願いします。
『古活字データセット』(カラーヌワット・タリン作成) doi:10.20676/00000416
また古活字データセットの元となった古典籍の所蔵者についても、可能な範囲で明記をお願いします。例えば、上記の『徒然草 2巻』のデータセットの場合は、以下のように記述することができます。
『古活字データセット』(カラーヌワット・タリン作成/国立国会図書館所蔵) doi:10.20676/00000416
ただし、今後はさまざまな機関が所蔵する古典籍から古活字データセットを作成する予定のため、すべてを出典に明記することは難しくなる可能性もあります。その際は、所蔵者一覧をウェブサイト上に明記することとします。現在の所蔵者一覧は以下の通りです。
- 国立国会図書館
可能な場合は、データ提供元であるROIS-DS人文学オープンデータ共同利用センターへのリンクをお願いします。
研究費
- 基幹研究プロジェクト 異分野融合による総合書物学の拡張的研究
- 文字を介した視覚的コミュニケーション基盤の創成, 科学研究費 基盤研究(A), 研究代表者 内田 誠一
- 歴史ビッグデータ:史料とデータ駆動型モデルを結合する分野横断型研究基盤の構築, 科学研究費 基盤研究(A), 研究代表者 北本 朝展
ニュース
2023-10-03
古活字プロジェクトの成果として、『古活字データセット』を公開しました。