『画本虫撰』日本古典籍データセット(国文研所蔵)

『画本虫撰』日本古典籍データセット(国文研所蔵)

ROIS-DS人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)は、情報学・統計学の最新技術を用いて人文学資料(史料)を分析する「データ駆動型人文学」や、人文学研究の成果に基づき構築したデータセットを超学際的に活用する「人文学ビッグデータ」など、オープンサイエンス時代の新しい人文学研究を展開します。[もっと詳しく..][CODHパンフレット..]

重要なお知らせ

2024-12-09

Joint Symposium of Linked Pasts 10 and Linked Pasts Japan 1の参加申込を受け付け中です。

>> お知らせ一覧

X (Twitter) - Timeline / Facebook / YouTube / Github

データセット一覧

日本古典籍データセット

歴史的典籍NW事業においてデジタル化された古典籍のうち、主に国文研所蔵本を対象に、画像データと書誌データをセットで公開しています。さらに一部の古典籍には作品紹介や翻刻テキストデータ、タグ情報なども付与しています。

江戸料理レシピデータセット

日本古典籍データセットに含まれる江戸の料理本を対象に、江戸の料理文化に関するデータとして、翻刻・現代語訳・レシピ化という作業を加えたレシピデータを提供します。

日本古典籍くずし字データセット

日本古典籍データセットで公開するデジタル化された古典籍を対象に、翻刻テキストの制作過程で生まれるくずし字の切り出された字形と座標情報などを、機械や人間を賢くするための学習データとして提供します。

KMNISTデータセット

日本古典籍くずし字データセットを元に、機械学習研究で著名なMNISTデータセット互換のくずし字データセットKMNISTを作成しました。目的に応じて、Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanjiの3種類のデータセットをご利用下さい。

顔貌コレクション(顔コレ)

日本の絵巻物を中心として古今東西の美術作品から顔貌を切り取って収集し、顔の描き方を比較検討する、美術史研究(特に様式研究)のための研究基盤を構築するプロジェクトです。

浮世絵顔データセット

浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築します。

江戸買物案内

江戸買物案内は、江戸時代に出版された『江戸買物独案内』から広告版面を切り抜くとともに、商人名や職種、居所(住所)、屋号紋などを抽出することで、江戸を中心とする商人に関するビジュアルな商業広告データベースとして構築したものです。

江戸観光案内

江戸観光案内は、江戸時代に出版された観光ガイドブックから挿絵を収集するとともに、名称やキーワードを付与することで、江戸を中心とする観光に関するビジュアルな名所挿絵データベースとして構築したものです。

江戸マップβ版

江戸マップβ版は、国立国会図書館が公開する古地図「江戸切絵図」から地名を抽出して地名データベース化するとともに、現代の地図や情報とも統合することで、歴史ビッグデータや歴史GISの研究や江戸都市空間の地理情報基盤の構築に活用します。

歴史的行政区域データセットβ版

歴史的に存在した市区町村に識別子を付与し、そこに市区町村境界の歴史的変遷を紐づけたデータセットです。1889年の市制・町村制以降の市区町村を対象とし、市区町村境界の変遷を現在のウェブ地図(地理院タイル)上に可視化する「アニメーション表示可能な歴史地図」も提供します。

篆書字体データセット

篆書字体データセットは、印文解読に有用と思われる和漢の字書・字彙類から切り出した篆書字体画像を、機械学習に利用しやすい形式で提供します。

近代雑誌データセット

明治初期から中期にかけて出版された雑誌(近代雑誌)のデジタル化の成果をもとに、OCR学習用データセットの公開やOCRソフトウェア(Kindai-OCR)の開発などを進めます。

プロジェクト一覧

みを(miwo):AIくずし字認識アプリ

くずし字資料を読みたい!でも読めない!「みを」はそんな人を手助けするアプリです。カメラで資料を撮影し、ボタンを押せば、AIがくずし字を現代の文字に変換してくれます。くずし字資料の世界へようこそ。

KuroNetくずし字認識

AI(機械学習)に基づく多文字(1ページ)くずし字OCR機能を開発します。IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できるサービスも提供します。

そあん(soan)

そあん(soan)は、現代日本語テキストをくずし字画像に変換し共有できるサービスです。日本の出版史上もっとも美しい書物の一つと言われる「嵯峨本」の古活字を素材として、誰もがデジタル組版できるソフトウェア/サービスを提供します。

つくしプロジェクト

日本古典籍と生成AIを組み合わせ、過去の文化と現代の人々との距離を縮めるAIを開発します。

歴史ビッグデータ

歴史ビッグデータとは、人間が書き記した様々な記録を機械が活用しやすい形式に変換する「データ構造化」を進め、過去から現在までの環境や社会の状況をシームレスに分析します。

Edo+150プロジェクト

1867年11月9日、江戸時代の終わりを象徴する「大政奉還」から、歴史は大きく動きました。あれから150年が経過した2017年。江戸時代260年に関するオープンデータが公開されつつあるいま、人工知能(AI)の最新技術なども活用しながら、かつての江戸の情報空間を現代によみがえらせます。

edomi - 江戸をみる/みせるデータポータル

都市としての江戸/時代としての江戸に関する各種のデータを一望するために、江戸をみる/江戸をみせるデータを現代的に構造化し集約するデータポータルです。

武鑑全集

江戸時代の200年続いたベストセラーである『武鑑』を網羅的に解析し、江戸時代の大名家や幕府役人に関する人物・地理情報などの中核的情報プラットフォームを構築します。

差読のための画像照合サービス

任意の2枚の画像を読み込んで画像を重ね合わせ、差分を強調する機能を提供します。木版印刷の異なる版の書籍画像を照合するなど、一部だけが異なる画像の「間違い探し」に便利なサービスです。

GeoLOD

地名に関する識別子を付与し地名辞書を共有するための基盤システムを構築します。

GeoNLP

地理情報処理(GIS)と自然言語処理(NLP)とを統合し、文章を自動的に地図化するジオタギングシステムを構築します。

華北交通アーカイブ

華北交通の弘報用ストックフォト(華北交通写真)を、華北交通が事業を行っていた交通網とリンクし、写真のテーマや撮影地などから華北交通の活動を探る研究データベースです。

メモリーグラフ

メモリーグラフは同一構図撮影を支援するカメラアプリ。今昔写真、ビフォーアフター写真、定点観測写真、聖地巡礼写真などの写真術を、文化遺産のフィールドワークや観光/災害復興などに展開します。

ディジタル・シルクロード

情報学と人文学の協働に基づき文化遺産のデジタルアーカイブを構築する、人文情報学(デジタル・ヒューマニティーズ)のプロジェクトです。

ソフトウェア一覧

IIIFを用いた画像公開と利用事例

IIIF (International Image Interoperability Framework)を用いた画像の公開と利用について、人文科学から自然科学までの大規模画像データベースを視野に入れた、国際的なコミュニティ活動を推進します。

IIIF Curation Platform

「キュレーション」というコンセプトを中心に、利用者主導型のオープンな次世代IIIFプラットフォームを作ります。

IIIF Curation Viewer

IIIF Image APIおよびIIIF Presentation APIの機能を活用し、Curation API、Timeline API、Cursor APIなどの新しい提案仕様も実装した、オープンソースのIIIF画像ビューアです。

IIIF Curation Finder

IIIF Curation Viewerで作成したキュレーションを検索したり、新たなキュレーションを再編集して公開したりするためのIIIF検索ツールです。

IIIF Curation Manager

IIIF Curation Viewerで作成したキュレーションの管理ツールです。

IIIF Curation Editor

IIIF Curation Viewerで作成したキュレーションの編集ツールです。

IIIF Curation Player

IIIF Curation Viewerで作成したキュレーションの再生ツールです。

IIIF Curation Board

IIIF Curation Viewerで作成したキュレーションを整理するホワイトボードツールです。

KuroNet Text Editor

IIIF Curation Viewerから派生したOCRテキスト編集ツールです。

JSONkeeper

A flask web application for storing JSON documents; with some special functions for JSON-LD.

Canvas Indexer

A flask web application that crawls Activity Streams for IIIF Canvases and offers a search API.

Curation Tracer

A flask web application for IIIF resource usage analytics with regard to IIIF Curations.

ICP Docker

IIIF Curation PlatformをDocker環境にインストールするためのスクリプトです。

vdiff.js

ウェブページ埋め込み型の画像比較ツールです。

vdiff-seq.js

ウェブページ埋め込み型のシーケンス画像比較ツールです。

Kindai-OCR

近代雑誌データセットを用いて学習した、近代日本の文書のためのOCRシステムです。