日本古典籍くずし字データセット 書名一覧

日本古典籍くずし字データセットの書名一覧です。国文研書誌ID(その他のID含む)または書名をクリックすると、日本古典籍くずし字データセットの詳細ページに移動します。また2019年1月に公開または更新したデータは、国文研書誌IDの背景を黄色として、見分けやすくしています。

並び 国文研書誌ID 書名 文字種 文字数 公開時期
1 100241706 虚南留別志 801 8,527 2019-01
2 100249371 鼎左秘録 729 9,580 2019-01
3 100249376 御前菓子秘伝抄 401 11,822 2019-01
4 100249416 餅菓子即席/手製集 469 7,950 2019-01
5 100249476 飯百珍伝 644 7,838 2019-01
6 100249537 料理珍味集 826 12,358 2019-01
7 200003076 好色一代男 1,720 63,959 2017-06
8 200003967 おらが春 1,119 11,197 2017-06
9 200004148 椿説弓張月 2,061 38,621 2019-01
10 200005598 傾城買四十八手 660 16,133 2019-01
11 200006663 ぢぐち 78 121 2019-01
12 200014685 南総里見八犬伝 1,780 15,864 2019-01
13 200014740 雨月物語 1,969 44,832 2017-06
14 200015779 浮世風呂 1,817 60,381 2019-01
15 200021637 当世料理 417 4,871 2016-11/2017-06
16 200021644 菓子話船橋 785 12,313 2019-01
17 200021660 養蚕秘録 1,758 32,525 2017-06
18 200021712 万宝料理秘密箱 843 24,480 2016-11
19 200021763 膳部料理抄 704 11,397 2016-11
20 200021802 料理物語 560 19,575 2016-11
21 200021851 かてもの 430 5,599 2017-06
22 200021853 日用惣菜俎不時珍客即席庖丁 595 9,046 2016-11
23 200021869 料理方心得之事 330 3,003 2016-11
24 200021925 新編異国料理 693 4,259 2016-11
25 200022050 料理秘伝抄 255 9,545 2016-11
26 brsk00000 物類称呼 2,197 75,462 2017-06
27 hnsd00000 比翼連理花迺志満台 1,972 83,492 2017-06
28 umgy00000 春色梅児与美 1,737 79,415 2019-01

listくずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)

listくずし字データセットの文字種一覧

機械学習による文字認識

(注)以下の内容は古いデータセットに基づくものです。最新のデータについてはKMNISTデータセットをご覧下さい。

このデータセットは、機械学習による文字認識のためのデータセットとして利用することを目的としています。データセットに含まれる文字の字形については文字種(くずし字)一覧をご覧下さい。

また、機械学習による文字認識をお試しできるよう、ディープラーニング(deep learning)を用いた文字認識のサンプルプログラム(Python)を用意しました。サンプルプログラムは深層学習ライブラリKerasを用いておりますので、Kerasが実行できる環境が必要です。

downloadサンプルコード(TAR+GZ 24.57 MB)

これはMNISTの文字認識プログラム(CNN)をそのまま用いて、データセット内で出現頻度の高い10文字を分類するという単純なプログラムです。あくまで「ベースライン」となるものであり、このままで高い性能が出るわけではありませんが、色々と改良してお使いください。

また、このデータセットを用いて得られた研究成果やデータ、ソフトウェアなどは、ぜひオープンに公開してください。日本の古典籍を全解読するというグランドチャレンジ「スクリプトーム解析」の解決に向けて、みなさまの知恵を結集していきたいと考えています。