日本古典籍くずし字データセット 書名一覧

日本古典籍くずし字データセットの書名一覧です。国文研書誌ID(その他のID含む)または書名をクリックすると、日本古典籍くずし字データセットの詳細ページに移動します。また2019年11月に公開または更新したデータは、国文研書誌IDの背景を黄色として、見分けやすくしています。

並び 国文研書誌ID 書名 文字種 文字数 公開時期 KuroNet
1 100241706 虚南留別志 786 8,527 2019-01 KuroNet
2 100249371 鼎左秘録 726 9,580 2019-01 KuroNet
3 100249376 御前菓子秘伝抄 401 11,822 2019-01 KuroNet
4 100249416 餅菓子即席/手製集 468 7,950 2019-01 KuroNet
5 100249476 飯百珍伝 639 7,838 2019-01 KuroNet
6 100249537 料理珍味集 817 12,358 2019-01 KuroNet
7 200003076 好色一代男 1,668 63,959 2017-06 KuroNet
8 200003803 源氏物語 237 11,132 2019-11 KuroNet
9 200003967 おらが春 1,112 11,197 2017-06 KuroNet
10 200004107 二人比丘尼 711 8,636 2019-11 KuroNet
11 200004148 椿説弓張月 1,971 38,572 2019-01 KuroNet
12 200005598 傾城買四十八手 658 16,133 2019-01 KuroNet
13 200005798 世間胸算用/大晦日ハ一日千金 1,211 37,887 2019-11 KuroNet
14 200006663 ぢぐち 78 121 2019-01 KuroNet
15 200006665 吉利支丹物語 420 16,883 2019-11 KuroNet
16 200008003 歌学提要 841 12,791 2019-11 KuroNet
17 200008316 武家義理物語 1,176 37,707 2019-11 KuroNet
18 200010454 源氏物語 193 11,566 2019-11 KuroNet
19 200014685 南総里見八犬伝 1,731 15,864 2019-01 KuroNet
20 200014740 雨月物語 1,922 44,832 2017-06 KuroNet
21 200015779 浮世風呂 1,743 60,381 2019-01 KuroNet
22 200015843 日本永代蔵 1,669 50,087 2019-11 KuroNet
23 200017458 曾我物語 166 29,584 2019-11 KuroNet
24 200018243 玉くしげ 676 13,623 2019-11 KuroNet
25 200019865 女郎花物語 760 39,183 2019-11 KuroNet
26 200020019 竹斎 312 33,163 2019-11 KuroNet
27 200021063 うすゆき物語 314 17,593 2019-11 KuroNet
28 200021071 伊曾保物語 610 45,358 2019-11 KuroNet
29 200021086 伊曾保物語 718 15,284 2019-11 KuroNet
30 200021637 当世料理 417 4,871 2016-11/2017-06 KuroNet
31 200021644 菓子話船橋 778 12,313 2019-01 KuroNet
32 200021660 養蚕秘録 1,711 32,525 2017-06 KuroNet
33 200021712 万宝料理秘密箱 821 24,480 2016-11 KuroNet
34 200021763 膳部料理抄 700 11,397 2016-11 KuroNet
35 200021802 料理物語 555 19,607 2016-11 KuroNet
36 200021851 かてもの 427 5,599 2017-06 KuroNet
37 200021853 日用惣菜俎不時珍客即席庖丁 594 9,046 2016-11 KuroNet
38 200021869 料理方心得之事 330 3,003 2016-11 KuroNet
39 200021925 新編異国料理 687 4,259 2016-11 KuroNet
40 200022050 料理秘伝抄 255 9,545 2016-11 KuroNet
41 200025191 仁勢物語 468 21,701 2019-11 KuroNet
42 brsk00000 物類称呼 2,171 75,462 2017-06 KuroNet
43 hnsd00000 比翼連理花迺志満台 1,907 83,492 2017-06 KuroNet
44 umgy00000 春色梅児与美 1,660 79,415 2019-01 KuroNet

listくずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)

listくずし字データセットの文字種一覧

機械学習による文字認識

(注)以下の内容は古いデータセットに基づくものです。最新のデータについてはKMNISTデータセットをご覧下さい。

このデータセットは、機械学習による文字認識のためのデータセットとして利用することを目的としています。データセットに含まれる文字の字形については文字種(くずし字)一覧をご覧下さい。

また、機械学習による文字認識をお試しできるよう、ディープラーニング(deep learning)を用いた文字認識のサンプルプログラム(Python)を用意しました。サンプルプログラムは深層学習ライブラリKerasを用いておりますので、Kerasが実行できる環境が必要です。

downloadサンプルコード(TAR+GZ 24.57 MB)

これはMNISTの文字認識プログラム(CNN)をそのまま用いて、データセット内で出現頻度の高い10文字を分類するという単純なプログラムです。あくまで「ベースライン」となるものであり、このままで高い性能が出るわけではありませんが、色々と改良してお使いください。

また、このデータセットを用いて得られた研究成果やデータ、ソフトウェアなどは、ぜひオープンに公開してください。日本の古典籍を全解読するというグランドチャレンジ「スクリプトーム解析」の解決に向けて、みなさまの知恵を結集していきたいと考えています。