日本古典籍字形データセット 書名一覧

日本古典籍字形データセットの書名一覧です。国文研書誌ID(その他のID含む)または書名をクリックすると、日本古典籍字形データセットの詳細ページに移動します。また2017年6月に公開または更新したデータは、国文研書誌IDの背景を黄色として、見分けやすくしています。

並び 国文研書誌ID 書名 文字種 文字数 公開時期
1 200003076 好色一代男 1,720 63,959 H29.06
2 200003967 おらが春 1,119 11,197 H29.06
3 200014740 雨月物語 1,969 44,832 H29.06
4 200021637 当世料理 417 4,871 H28.11/H29.06更新
5 200021660 養蚕秘録 1,758 32,525 H29.06
6 200021712 万宝料理秘密箱 843 24,480 H28.11
7 200021763 膳部料理抄 704 11,397 H28.11
8 200021802 料理物語 560 19,575 H28.11
9 200021851 かてもの 430 5,599 H29.06
10 200021853 日用惣菜俎不時珍客即席庖丁 595 9,046 H28.11
11 200021869 料理方心得之事 330 3,003 H28.11
12 200021925 新編異国料理 693 4,259 H28.11
13 200022050 料理秘伝抄 255 9,545 H28.11
14 brsk00000 物類称呼 2,197 75,462 H29.06
15 hnsd00000 比翼連理花迺志満台 1,972 83,492 H29.06

list日本古典籍字形データセットの文字種一覧

機械学習による文字認識

このデータセットは、機械学習による文字認識のためのデータセットとして利用することを目的としています。データセットに含まれる文字の字形については文字種一覧をご覧下さい。

また、機械学習による文字認識をお試しできるよう、ディープラーニング(deep learning)を用いた文字認識のサンプルプログラム(Python)を用意しました。サンプルプログラムは深層学習ライブラリKerasを用いておりますので、Kerasが実行できる環境が必要です。

downloadサンプルコード(TAR+GZ 24.57 MB)

これはMNISTの文字認識プログラム(CNN)をそのまま用いて、データセット内で出現頻度の高い10文字を分類するという単純なプログラムです。あくまで「ベースライン」となるものであり、このままで高い性能が出るわけではありませんが、色々と改良してお使いください。

また、このデータセットを用いて得られた研究成果やデータ、ソフトウェアなどは、ぜひオープンに公開してください。日本の古典籍を全解読するというグランドチャレンジ「スクリプトーム解析」の解決に向けて、みなさまの知恵を結集していきたいと考えています。