近代雑誌OCR学習用データセット

近代雑誌データセットの画像データを対象に、1行ごとに翻刻テキストと座標情報を対応させたデータセットを提供します。国立国語研究所が作成した翻刻テキスト、およびオープンデータとして公開するデジタル画像をもとに、1行ごとの座標情報をROIS-DS人文学オープンデータ共同利用センターが作成したうえで、OCR学習用データセットとしてまとめたものです。

2023年7月現在、近代雑誌OCR学習用データセットの規模は、 近代雑誌データセットにて公開する近代雑誌『国民之友(第1号-第27号)』、および『明六雑誌(第1号-第43号)』の画像データ1,985コマから切り出した59,465行のデータセットであり、4,935文字種、1,472,004文字のテキストを含みます。

近代雑誌OCR学習用データセットは、明治期の活字データセットとして、文字認識(OCR)の研究開発に利用できます。

Kindai-OCR

データ概要

本データセットは、国立国会図書館が公開するパブリックドメインOCR学習用データセットが利用する、NDLOCR XML形式に合わせています。

近代雑誌OCR学習用データセット(バージョン1) - 2.2GB

近代雑誌データセットの画像データと、1行ごとの座標情報(バウンディングボックス)
翻刻テキストと座標情報を統合した、NDLOCR XML形式のOCR学習用データ
<OCRDATASET xmlns="NDLOCRDATASET">
<PAGE IMAGENAME="kmnt001-004.jpg" WIDTH="2273" HEIGHT="3000">
<LINE STRING="吾人が待ちに待たる長崎事件の談判も既に穏便に决着" X="1579" Y="307" WIDTH="69" HEIGHT="1205" />
<LINE STRING="せり蓋し長崎事件は一小事件なり清国水夫と日本巡査" X="1480" Y="315" WIDTH="68" HEIGHT="1201" />
<LINE STRING="との一時の喧嘩に過きさる事件なり固より立談の間に" X="1385" Y="313" WIDTH="64" HEIGHT="1204" />
<LINE STRING="其の局を結ふ可き也而して彼の清国なるもの動もすれ" X="1291" Y="307" WIDTH="64" HEIGHT="1215" />
<LINE STRING="は毛を吹て疵を求め、藪を探りて蛇を出たすか如きの" X="1187" Y="313" WIDTH="64" HEIGHT="1198" />
<LINE STRING="傾向ありしは何そや大凡そ外交家なるものは如何なる" X="1089" Y="309" WIDTH="68" HEIGHT="1202" />
<LINE STRING="大事件も恰も尋常茶飯の如く如何なる紛擾の交渉も快" X="985" Y="305" WIDTH="81" HEIGHT="1210" />
<LINE STRING="刀一揮乱糸を断つか如く一語一笑の際神色自若傍人を" X="885" Y="309" WIDTH="79" HEIGHT="1204" />
<LINE STRING="して其の何たるを知らしめすして之を処分するこそ其" X="793" Y="311" WIDTH="66" HEIGHT="1208" />
<LINE STRING="の技倆と云ふ可れ、然るに清国の政略却て之に反対し" X="685" Y="305" WIDTH="72" HEIGHT="1206" />
<LINE STRING="極めて小なるものを極めて大なるものとし極めて簡な" X="595" Y="307" WIDTH="62" HEIGHT="1208" />
<LINE STRING="るものを極めて繁なるものとなすか如きの風ありしは" X="489" Y="309" WIDTH="68" HEIGHT="1198" />
<LINE STRING="吾人の得て解する能はさりし所なり雖然日清両国の怨" X="389" Y="299" WIDTH="75" HEIGHT="1213" />
<LINE STRING="を以て怨に報ひ劔を以て劔に報るか如き関係を生する" X="289" Y="303" WIDTH="66" HEIGHT="1200" />
<LINE STRING="は東洋政略の大局に於て决して望む可きことに非らさ" X="197" Y="307" WIDTH="66" HEIGHT="1202" />
<LINE STRING="るは既に彼国活眼政治家の李鴻章曽紀沢諸氏の看破す" X="93" Y="309" WIDTH="66" HEIGHT="1198" />
<LINE STRING="る所にして果して此の如く穏便に决着したるは吾人か" X="1577" Y="1535" WIDTH="68" HEIGHT="1202" />
<LINE STRING="尤も両国の為めに祝し併せて東洋平和の為めに祝して" X="1475" Y="1535" WIDTH="70" HEIGHT="1206" />
<LINE STRING="止まさる所なり而して其の平和は我邦の体面に於て如" X="1368" Y="1533" WIDTH="72" HEIGHT="1213" />
<LINE STRING="何なる関係を有する乎に到りては吾人他日詳論する所" X="1268" Y="1533" WIDTH="72" HEIGHT="1204" />
<LINE STRING="あらん" X="1177" Y="1537" WIDTH="72" HEIGHT="164" />
<LINE STRING=" ○地方制度の改良" X="1075" Y="1633" WIDTH="72" HEIGHT="423" />
<LINE STRING="地方制度の改良せさる可らさる固より論を竢たす今や" X="977" Y="1533" WIDTH="70" HEIGHT="1210" />
<LINE STRING="芳川青木野村の諸次官及ひ法律顧問モッセーの四氏地" X="879" Y="1533" WIDTH="70" HEIGHT="1206" />
<LINE STRING="方制度編纂委員となり山県大臣其の長となれり而して" X="779" Y="1531" WIDTH="68" HEIGHT="1206" />
<LINE STRING="其の改正たるや之を従来の制度に比較して大に地方の" X="681" Y="1531" WIDTH="72" HEIGHT="1217" />
<LINE STRING="自治を与へ戸長を挙て民撰となし国庫金と地方税との" X="579" Y="1533" WIDTH="72" HEIGHT="1202" />
<LINE STRING="出納を区別し地方税の監督は之を府県会に任し議員を" X="483" Y="1533" WIDTH="64" HEIGHT="1206" />
<LINE STRING="して帳簿撿査を為すの実権を有せしむるか如き大に旧" X="376" Y="1528" WIDTH="81" HEIGHT="1208" />
<LINE STRING="来の面目を一新するものなりと云ふ又た伊藤総理大臣" X="278" Y="1528" WIDTH="77" HEIGHT="1213" />
<LINE STRING="の意見なりとて毎日新聞に掲くるを見るに曰く第一地" X="180" Y="1526" WIDTH="68" HEIGHT="1221" />
<LINE STRING="方長官と議会の権理は相譲らしめさる事第二地方官と" X="82" Y="1524" WIDTH="70" HEIGHT="1213" />
</PAGE>
</OCRDATASET>

ライセンス

クリエイティブ・コモンズ・ライセンス
近代雑誌OCR学習用データセット』(国立国語研究所蔵/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター・国立国語研究所作成)はクリエイティブ・コモンズ 表示 4.0 国際 ライセンス(CC BY)の下に提供されています。

データセットをご利用の際には、以下のような表示をお願いします。

『近代雑誌OCR学習用データセット』(CODH・国語研作成) doi:10.20676/00000415

また可能な場合は、データ提供元であるROIS-DS人文学オープンデータ共同利用センターへのリンクをお願いします。

提供:ROIS-DS人文学オープンデータ共同利用センター

データ提供方法・注意事項

本データセットの作成の過程では、様々な誤りが混入する可能性があります。誤りなどを発見しましたらご連絡ください。

翻刻テキストとしては1行であっても、実際の画像には複数行が含まれている場合があります(割注など)。また、文字の横にふりがなや○などの記号が書かれており、それが1行のバウンディングボックスの内部に混入している場合があります。さらに、画像の傾きを補正していないため、1行が傾いてしまい、文字がバウンディングボックスからはみ出している場合があります。こうしたデータは、OCR学習時に精度低下につながる可能性がありますので、ご注意下さい。

新字と旧字については、常用漢字の範囲で旧字を新字に統合しました。これは検索などの利便性を考慮した決定です。変換には新旧字体表(常用漢字表)を活用しました。これは日本古典籍くずし字データセットと同じ基準です。