KMNISTデータセット(機械学習用くずし字データセット)

日本古典籍くずし字データセットを元に、機械学習研究で著名なMNISTデータセット互換のくずし字データセットKMNISTを作成しました。MNISTデータセットに対応した機械学習ソフトウェアであれば、設定を変更するだけで気軽にKMNISTを試すことができます。目的に応じて、Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanjiの3種類のデータセットをご利用下さい。

KMNISTデータセットは、ROIS-DS人文学オープンデータ共同利用センター(CODH)が作成したものであり、国文学研究資料館が作成した日本古典籍くずし字データセットを元にしています。ご利用の際にはライセンスをご確認下さい。

GitHub: Repository for Kuzushiji-MNIST, Kuzushiji-49, and Kuzushiji-Kanji

The 10 classes of Kuzushiji-MNIST, with the first column showing each character's modern hiragana counterpart.

なお、くずし字に関連する情報については、第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜や、くずし字チャレンジ!もご覧下さい。またKaggleでは、データセットの様々な利用例が生まれています。

Kaggle: Kuzushiji-MNIST | Kaggle

データセット

Kuzushiji-MNIST Kuzushiji-MNIST is a drop-in replacement for the MNIST dataset (28x28 grayscale, 70,000 images), provided in the original MNIST format as well as a NumPy format. Since MNIST restricts us to 10 classes, we chose one character to represent each of the 10 rows of Hiragana when creating Kuzushiji-MNIST.
Kuzushiji-49 As the name suggests, Kuzushiji-49 has 49 classes (28x28 grayscale, 270,912 images), is a much larger, but imbalanced dataset containing 48 Hiragana characters and one Hiragana iteration mark.
Kuzushiji-Kanji Kuzushiji-Kanji is an imbalanced dataset of total 3832 Kanji characters (64x64 grayscale, 140,426 images), ranging from 1,766 examples to only a single example per class.

データセットをダウンロードするためのリンクは、以下のGitHubリポジトリにまとめています。

GitHub: Repository for Kuzushiji-MNIST, Kuzushiji-49, and Kuzushiji-Kanji

引用

KMNISTデータセットを活用した研究成果を発表する際には、以下の論文の引用をご検討下さい。

ライセンス

クリエイティブ・コモンズ・ライセンス
KMNISTデータセット』(情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター作成)/『くずし字データセット』(国文学研究資料館ほか所蔵を翻案)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

データセット全体をご利用の際には、例えば以下のような表示をお願いします。

『KMNISTデータセット』(CODH作成) 『日本古典籍くずし字データセット』(国文研ほか所蔵)を翻案 doi:10.20676/00000341

ここで、データセットのDOI (10.20676/00000341)は、データセットを特定するために重要な情報ですので、引用の際にはできるだけ含めて下さい。なお、このDOIはデータセットの更新にかかわらず不変のIDとし、データセットのバージョン管理は行いません。

データセットの目的/目標

機械学習の分野では、データセットを使って何らかのモデルを学習させ、その結果を比較するという方法で研究が進んでいきます。こうした研究に使えるように、様々なテーマで数多くのデータセットがすでに公開されていますが、中でも特に著名なものにMNIST(エムニスト)データセットがあります。

MNIST (Mixed National Institute of Standards and Technology) databaseは、0から9までの数字の手書き文字画像を集めたデータセットです。画像サイズを28x28に揃えた上で、文字が画像の中心となるように正規化しているため、様々な機械学習のタスクに使いやすいデータとなっています。60,000件のトレーニングデータと10,000件のテストデータに分割されたデータは、誰でもウェブサイトからダウンロードして利用することが可能です。

このデータセットを用いた機械学習の論文Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. "Gradient-based learning applied to document recognition." Proceedings of the IEEE, 86(11):2278-2324, November 1998はこれまでに15,000回以上引用されています。そしてこの論文が出版された1998年以降、多くの研究者がこのデータセットを用いて提案手法を評価しており、MNISTは機械学習の歴史を形作ってきた存在とも言えます。また、機械学習における標準的なデータセットとして、初心者から最先端研究者まで現在も幅広く使われていることから、MNISTに対応したソフトウェアも多数にのぼります。CODHが2016年11月に日本古典籍くずし字データセットを公開した際にも、MNISTの文字認識プログラムをデータセットと共に公開することで、データセットを気軽に体験できるようにしました。

今回公開するKMNISTは、まさにMNISTのくずし字版です。画像の大きさやトレーニングとテストの分割方法などを可能な限りMNISTと揃えることで、MNISTに対応した多くのソフトウェアがそのまま使えるようにしました。ただしKMNISTでは、MNISTにはなかった「字母」という問題、すなわち、もともと形状が大きく異なる文字を、現代の日本語を基準として同じクラス(文字コード)に分類するという問題、など新しい研究要素が増えています。

一方、文字種についてはどうでしょうか。MNISTおよびKuzushiji-MNISTは10文字種ですが、Kuzushiji-Kanjiは3832文字種のため、分類問題としての難易度はより高くなります。ただし文字種を増やす際に課題となるのが、文字数の問題です。一般に文字の出現頻度には大きな偏りがあるため、たとえ少数の高頻度文字には十分なサンプル数を確保できたとしても、多数の低頻度文字にも十分なサンプル数を確保することは困難です。Kuzushiji-Kanjiは低頻度文字も含むデータセットのため、低頻度文字では十分なサンプル数が揃っていない場合があります。それに対し、Kuzushiji-MNISTは高頻度文字のみを対象としたデータセットのため、MNISTと同様に機械学習研究にそのまま利用することが可能です。

MNISTのバリエーションとしてのKMNISTを気軽に使ってみることで、くずし字を対象とした研究に興味をもつ研究者を増やすことが我々の目標です。またこのデータセットは、文字認識だけでなく文字生成など様々な研究に利用できるため、自由な発想によるデータセットの利用方法が増えていくことで、くずし字を対象とした研究の多様性が拡大していくことも望んでいます。そして、くずし字×機械学習(AI)の研究に対する社会の認知度を向上させ、くずし字データセットの拡充やくずし字チャレンジ!コミュニティの拡大につなげていくことが、我々の長期的な目標です。

更新情報

2019-02-04

KMNISTデータセットのうち、Kuzushiji-MNISTおよびKuzushiji-49について、データセットの不具合を解消したバージョンに更新しました。以前のバージョンには、画像処理の問題により、真っ黒の画像などが含まれていましたが、それらを取り除き新しい画像を加えることで、新しいデータセットとしました。なお古いデータセットを新しいデータセットで上書き更新しました。

2018-12-08

KMNISTデータセットを公開し、学会発表を行いました。Second Workshop on Machine Learning for Creativity and Design at Neural Information Processing Systems (NeurIPS 2018).

2018-12-03

論文を投稿しました:Tarin Clanuwat, Mikel Bober-Irizar, Asanobu Kitamoto, Alex Lamb, Kazuaki Yamamoto, David Ha, "Deep Learning for Classical Japanese Literature", arXiv:1812.01718