ROIS-DS人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)は、情報学・統計学の最新技術を用いて人文学資料(史料)を分析する「データ駆動型人文学」や、人文学研究の成果に基づき構築したデータセットを超学際的に活用する「人文学ビッグデータ」など、オープンサイエンス時代の新しい人文学研究を展開します。[もっと詳しく..][CODHパンフレット..]

『画本虫撰』日本古典籍データセット(国文研所蔵)
歴史的典籍NW事業においてデジタル化された古典籍のうち、主に国文研所蔵本を対象に、画像データと書誌データをセットで公開しています。さらに一部の古典籍には作品紹介や翻刻テキストデータ、タグ情報なども付与しています。
日本古典籍データセットに含まれる江戸の料理本を対象に、江戸の料理文化に関するデータとして、翻刻・現代語訳・レシピ化という作業を加えたレシピデータを提供します。
日本古典籍データセットで公開するデジタル化された古典籍を対象に、翻刻テキストの制作過程で生まれるくずし字の切り出された字形と座標情報などを、機械や人間を賢くするための学習データとして提供します。
日本古典籍くずし字データセットを元に、機械学習研究で著名なMNISTデータセット互換のくずし字データセットKMNISTを作成しました。目的に応じて、Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanjiの3種類のデータセットをご利用下さい。
日本の絵巻物を中心として古今東西の美術作品から顔貌を切り取って収集し、顔の描き方を比較検討する、美術史研究(特に様式研究)のための研究基盤を構築するプロジェクトです。
浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築します。
江戸買物案内は、江戸時代に出版された『江戸買物独案内』から広告版面を切り抜くとともに、商人名や職種、居所(住所)、屋号紋などを抽出することで、江戸を中心とする商人に関するビジュアルな商業広告データベースとして構築したものです。
江戸観光案内は、江戸時代に出版された観光ガイドブックから挿絵を収集するとともに、名称やキーワードを付与することで、江戸を中心とする観光に関するビジュアルな名所挿絵データベースとして構築したものです。
江戸マップβ版は、国立国会図書館が公開する古地図「江戸切絵図」から地名を抽出して地名データベース化するとともに、現代の地図や情報とも統合することで、歴史ビッグデータや歴史GISの研究や江戸都市空間の地理情報基盤の構築に活用します。
Geoshapeリポジトリは、地理的エンティティの地理形状データを共有するデータリポジトリです。1920年以降の市区町村境界の歴史的変遷をウェブ地図上に表示できるデータセットである「歴史的行政区域データセットβ版」などを公開しています。
篆書字体データセットは、印文解読に有用と思われる和漢の字書・字彙類から切り出した篆書字体画像を、機械学習に利用しやすい形式で提供します。
近代の雑誌を撮影した画像データセットを公開します。n2iプロジェクトでは近代文書を対象としたOCRの研究を進める一環として、近代文書の画像データセットを構築しています。
AI(機械学習)に基づく多文字(1ページ)くずし字OCR機能を開発します。IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できるサービスも提供します。
くずし字資料を読みたい!でも読めない!「みを」はそんな人を手助けするアプリです。カメラで資料を撮影し、ボタンを押せば、AIがくずし字を現代の文字に変換してくれます。くずし字資料の世界へようこそ。
歴史ビッグデータとは、人間が書き記した様々な記録を機械が活用しやすい形式に変換する「データ構造化」を進め、過去から現在までの環境や社会の状況をシームレスに分析します。
都市としての江戸/時代としての江戸に関する各種のデータを一望するために、江戸をみる/江戸をみせるデータを現代的に構造化し集約するデータポータルです。
1867年11月9日、江戸時代の終わりを象徴する「大政奉還」から、歴史は大きく動きました。あれから150年が経過した2017年。江戸時代260年に関するオープンデータが公開されつつあるいま、人工知能(AI)の最新技術なども活用しながら、かつての江戸の情報空間を現代によみがえらせます。
江戸時代の200年続いたベストセラーである『武鑑』を網羅的に解析し、江戸時代の大名家や幕府役人に関する人物・地理情報などの中核的情報プラットフォームを構築します。
任意の2枚の画像を読み込んで画像を重ね合わせ、差分を強調する機能を提供します。木版印刷の異なる版の書籍画像を照合するなど、一部だけが異なる画像の「間違い探し」に便利なサービスです。
地名に関する識別子を付与し地名辞書を共有するための基盤システムを構築します。
地理情報処理(GIS)と自然言語処理(NLP)とを統合し、文章を自動的に地図化するジオタギングシステムを構築します。
華北交通の弘報用ストックフォト(華北交通写真)を、華北交通が事業を行っていた交通網とリンクし、写真のテーマや撮影地などから華北交通の活動を探る研究データベースです。
「記憶を重ねる新しい写真術」であるメモリーグラフを開発し、文化遺産のフィールドワークや観光/災害復興への利用などを展開します。
情報学と人文学の協働に基づき文化遺産のデジタルアーカイブを構築する、人文情報学(デジタル・ヒューマニティーズ)のプロジェクトです。
IIIF (International Image Interoperability Framework)を用いた画像の公開と利用について、人文科学から自然科学までの大規模画像データベースを視野に入れた、国際的なコミュニティ活動を推進します。
「キュレーション」というコンセプトを中心に、利用者主導型のオープンな次世代IIIFプラットフォームを作ります。
IIIF Image APIおよびIIIF Presentation APIの機能を活用し、Curation API、Timeline API、Cursor APIなどの新しい提案仕様も実装した、オープンソースのIIIF画像ビューアです。
IIIF Curation Viewerをベースとした、Webページ埋め込み型のIIIFビューアです。
IIIF Curation Viewerで作成したキュレーションを検索したり、新たなキュレーションを再編集して公開したりするためのIIIF検索ツールです。
IIIF Curation Viewerで作成したキュレーションの管理ツールです。
IIIF Curation Viewerで作成したキュレーションの編集ツールです。
IIIF Curation Viewerで作成したキュレーションの再生ツールです。
IIIF Curation Viewerで作成したキュレーションを整理するホワイトボードツールです。
IIIF Curation Viewerから派生したOCRテキスト編集ツールです。
ウェブページ埋め込み型の画像比較ツールです。
A flask web application for storing JSON documents; with some special functions for JSON-LD.
A flask web application that crawls Activity Streams for IIIF Canvases and offers a search API.
A flask web application for IIIF resource usage analytics with regard to IIIF Curations.
IIIF Curation PlatformをDocker環境にインストールするためのスクリプトです。
近代雑誌データセットを用いて学習した、近代日本の文書のためのOCRシステムです。