くずし字チャレンジ!

  • 第23回PRMUアルゴリズムコンテスト「くずし字認識チャレンジ2019」開始

  • 2019 6/16

第23回PRMUアルゴリズムコンテスト「くずし字認識チャレンジ2019」が2019年5月31日から始まりました。CODHが後援するコンペティションとしては、第21回PRMUアルゴリズムコンテストに引き続いて2回目です。皆様の積極的なご応募をお待ちしています。

最近はくずし字データセットの普及も進み、このデータセットを活用して文字認識の研究に挑む情報学研究者も増えてきました。データセットの公開が研究を活性化するという一つの好例になりつつあります(参考:電子情報通信学会誌「文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――」公開)。

さらに機械学習研究者の参入を容易にするために、昨年(2018)の12月にはKuzushiji MNISTデータセットも公開しました。このデータセットは、文字認識のためのデータセットとして著名なMNISTと互換形式になっているため、MNIST用の既存コードを1行変更するだけで研究が始められる点が魅力です。こうしたデータセットを活用することで、世界中の研究者がくずし字に興味を持ち始めています。

例えばBy the Book: AI Making Millions of Ancient Japanese Texts More Accessible(The Official NVIDIA Blog)(日本語訳)やChoosing AI Benchmark Tasks to Benefit Other Fields(Quebec Artificial Intelligence Institute - Mila)などの記事は、世界中の人々が注目するブログで、しかも英文で、くずし字研究が紹介されたことに価値があります。さらに、Deep learning creates Rosetta Stone for Medieval Japanese scriptは、米国サンフランシスコにおける機械学習ミートアップで、くずし字データセットを題材としたレクチャーが行われる様子を紹介しています。その他の紹介記事については、ニュースもご覧下さい。

このようにくずし字データセットは日本文化に対する世界の関心を高める役割も果たしています。そしてデータセットを活用したコンペティションは、機械学習の初心者から上級者まで、明確な目的のもと研究に取り組むには最適な場となります。PRMUアルゴリズムコンテストの方も、特にこの分野の研究に取り組んでいる学部生や大学院生の方などは、ぜひ取り組んでみてください。