近代雑誌データセット

明治初期から中期にかけて出版された雑誌(近代雑誌)のデジタル化の成果をもとに、OCR学習用データセットの公開やOCRソフトウェア(Kindai-OCR)の開発などを進めます。

近代雑誌画像データ

明治初期から中期にかけて出版された雑誌(近代雑誌)をデジタル化し、オープンデータ「近代雑誌データセット」として公開しています。

『東洋学芸雑誌(第1号-第87号)』 - 日本語史研究資料 [国立国語研究所蔵] 1881年〜1888年

『国民之友(第1号-第254号)』 - 日本語史研究資料 [国立国語研究所蔵] 1887年〜1895年

『明六雑誌(第1号-第43号)』 - 日本語史研究資料 [国立国語研究所蔵] 1874年〜1875年

なお『東洋学芸雑誌』および『国民之友』の画像データは、ROIS-DS人文学オープンデータ共同利用センターと国立国語研究所が共同してデジタル化を推進した成果です。

機械学習データセット

近代雑誌データセットからOCR(機械学習)用データセットを構築し、オープンデータとして公開しています。

近代雑誌OCR学習用データセット

OCRソフトウェア

ディープラーニング(Transformer)を活用した近代日本語文書用OCR「Kindai-OCR」を開発しています。OCRの学習には上記のデータセットやその他のデータセットも活用しています。

Kindai-OCR

メンバー

n2iプロジェクトをご覧ください。

更新情報

2023-07-13

Kindai-OCRをバージョン2に更新し、ディープラーニング(Transformer)の導入により認識精度が向上しました。またKindai-OCRやその他の機械学習に利用できる近代雑誌OCR学習用データセットも公開しました。4,935文字種、1,472,004文字のテキストを含む、画像データ1,985コマから切り出した59,465行のデータセットです。

2023-07-10

『国民之友(第254号-第276号)』の画像を公開しました。

2022-10-28

『国民之友(第141号-第254号)』の画像を公開しました。

2018-12-27

『国民之友(第105号-第140号)』の画像を公開しました。

2018-07-05

『国民之友(第71号-第104号)』の画像を公開しました。

2017-08-03

『東洋学芸雑誌(第1号-第87号)』の画像を公開しました。