明治初期から中期にかけて出版された雑誌(近代雑誌)のデジタル化の成果をもとに、OCR学習用データセットの公開やOCRソフトウェア(Kindai-OCR)の開発などを進めます。
近代雑誌画像データ
明治初期から中期にかけて出版された雑誌(近代雑誌)をデジタル化し、オープンデータ「近代雑誌データセット」として公開しています。
『東洋学芸雑誌(第1号-第87号)』 - 日本語史研究資料 [国立国語研究所蔵] 1881年〜1888年
『国民之友(第1号-第254号)』 - 日本語史研究資料 [国立国語研究所蔵] 1887年〜1895年
『明六雑誌(第1号-第43号)』 - 日本語史研究資料 [国立国語研究所蔵] 1874年〜1875年
なお『東洋学芸雑誌』および『国民之友』の画像データは、ROIS-DS人文学オープンデータ共同利用センターと国立国語研究所が共同してデジタル化を推進した成果です。
機械学習データセット
近代雑誌データセットからOCR(機械学習)用データセットを構築し、オープンデータとして公開しています。
OCRソフトウェア
ディープラーニング(Transformer)を活用した近代日本語文書用OCR「Kindai-OCR」を開発しています。OCRの学習には上記のデータセットやその他のデータセットも活用しています。
メンバー
n2iプロジェクトをご覧ください。
更新情報
2023-07-13
Kindai-OCRをバージョン2に更新し、ディープラーニング(Transformer)の導入により認識精度が向上しました。またKindai-OCRやその他の機械学習に利用できる近代雑誌OCR学習用データセットも公開しました。4,935文字種、1,472,004文字のテキストを含む、画像データ1,985コマから切り出した59,465行のデータセットです。
2023-07-10
『国民之友(第254号-第276号)』の画像を公開しました。
2022-10-28
『国民之友(第141号-第254号)』の画像を公開しました。
2018-12-27
『国民之友(第105号-第140号)』の画像を公開しました。
2018-07-05
『国民之友(第71号-第104号)』の画像を公開しました。
2017-08-03
『東洋学芸雑誌(第1号-第87号)』の画像を公開しました。