日本古典籍字形データセット 書名一覧

日本古典籍字形データセットの書名一覧です。国文研書誌IDまたは書名をクリックすると、日本古典籍字形データセットの詳細ページに移動します。また2016年11月に新規公開したデータは、国文研書誌IDの背景を黄色として、見分けやすくしています。

並び 国文研書誌ID 書名 文字種 文字数 公開時期
1 200021637 当世料理 417 4,871 H28.11
2 200021712 万宝料理秘密箱 843 24,480 H28.11
3 200021763 膳部料理抄 704 11,397 H28.11
4 200021802 料理物語 560 19,575 H28.11
5 200021853 日用惣菜俎不時珍客即席庖丁 595 9,046 H28.11
6 200021869 料理方心得之事 330 3,003 H28.11
7 200021925 新編異国料理 693 4,259 H28.11
8 200022050 料理秘伝抄 255 9,545 H28.11

list 日本古典籍字形データセットの文字種一覧

機械学習による文字認識

このデータセットは、機械学習による文字認識のためのデータセットとして利用することを目的としています。データセットに含まれる文字の字形については文字種一覧をご覧下さい。

また、機械学習による文字認識をお試しできるよう、ディープラーニング(deep learning)を用いた文字認識のサンプルプログラム(Python)を用意しました。サンプルプログラムは深層学習ライブラリKerasを用いておりますので、Kerasが実行できる環境が必要です。

download サンプルコード(TAR+GZ 24.57 MB)

これはMNISTの文字認識プログラム(CNN)をそのまま用いて、データセット内で出現頻度の高い10文字を分類するという単純なプログラムです。あくまで「ベースライン」となるものであり、このままで高い性能が出るわけではありませんが、色々と改良してお使いください。

また、このデータセットを用いて得られた研究成果やデータ、ソフトウェアなどは、ぜひオープンに公開してください。日本の古典籍を全解読するというグランドチャレンジ「スクリプトーム解析」の解決に向けて、みなさまの知恵を結集していきたいと考えています。