KuroNetくずし字認識サービス（AI OCR）

ディープラーニング（AI）を用いた多文字のくずし字OCRサービスを提供します。

なお、スマホアプリについては、みを（miwo） - AIくずし字認識アプリをご利用下さい。

KuroNetくずし字認識サービス

KuroNetくずし字認識サービスは、IIIF (International Image Interoperability Framework)に準拠した画像を対象に、RURIを利用した多文字くずし字OCR機能を提供します。無料サービスですが、ログインが必要です。具体的な利用方法につきましては、リンク先をご覧下さい。

KuroNetくずし字認識ビューア

KuroNetくずし字認識ビューアは、KuroNetくずし字認識サービスを利用するための入口となります。ビューアにIIIF (International Image Interoperability Framework)マニフェストをドラッグ＆ドロップするか、以下のボックスにIIIFマニフェストURLを入力して下さい。

KuroNetくずし字認識ビューアを起動：

あるいは日本古典籍データセットを検索してください。

日本古典籍くずし字データセット

くずし字OCR（AIくずし字認識）の研究開発を支えているデータセットです。旧字と新字の統合などもこのデータセットの作成方針にしたがいます。またデータセットで出現頻度が低い文字は、認識が困難となる場合もありますので、精度を向上させるにはより大規模なデータセットを構築することが重要です。

参考文献

2022年10月、AIくずし字認識モデルの名前としての「KuroNet（クロネット）」は、新モデルRURI（瑠璃）に役目を譲って引退しました。ただ、サービス名としてのKuroNetは、歴史的経緯を考えてそのまま継続します。以下、AIモデルとしてのKuroNetに関する参考文献を紹介します。

まず、研究の背景も含めた全体像の中でのKuroNetの位置づけについては、以下をご覧下さい。

北本朝展, カラーヌワットタリン, 宮崎智, 山本和明, "文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――", 電子情報通信学会誌, Vol. 102, No. 6, pp. 563-568, doi:10.20676/00000349, 2019年6月
北本朝展, "データ駆動型人文学研究の発展とAIによるくずし字認識", 月刊J-LIS, Vol. 6, No. 8, pp. 36-39, doi:10.20676/00000352, 2019年11月
北本朝展, カラーヌワットタリン, "AIによるくずし字認識と歴史的資料全文検索への道", 専門図書館, No. 300, pp. 26-32, 2020年5月
カラーヌワットタリン, 北本朝展, "くずし字認識の進化とサービス化の展開", 人文科学とコンピュータシンポジウムじんもんこん2020論文集, pp. 3-10, 2020年12月 [ Paper ]

次に、KuroNetの技術的な面については、以下をご覧下さい。

Alex LAMB, Tarin CLANUWAT,Asanobu KITAMOTO, "KuroNet: Regularized Residual U-Nets for End-to-End Kuzushiji Character Recognition", SN Computer Science, Vol. 1, No. 177, pp. 1-15, doi:10.1007/s42979-020-00186-z, 2020年5月 (in English)
Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning", 15th International Conference on Document Analysis and Recognition (ICDAR2019), pp. 607-614, doi:10.1109/ICDAR.2019.00103, arXiv:1910.09433, 2019年9月
Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "End-to-End Pre-Modern Japanese Character (Kuzushiji) Spotting with Deep Learning", 人文科学とコンピュータシンポジウムじんもんこん2018論文集, pp. 15-20, 2018年12月 (in English) [ Paper ]

さらに、CODHによる関連するプロジェクトや、くずし字認識の関連プロジェクトについては、以下をご覧下さい。

北本朝展, カラーヌワットタリン, ボーバー・イリザーミケル, "Kaggle くずし字認識─世界規模の人文系コンペ開催への挑戦─", 人工知能学会誌, Vol. 35, No. 3, pp. 366-376, 2020年5月 [ Paper ]
北本朝展, カラーヌワットタリン, Alex LAMB, Mikel BOBER-IRIZAR, "くずし字認識のためのKaggle機械学習コンペティションの経過と成果", 人文科学とコンピュータシンポジウムじんもんこん2019論文集, pp. 223-230, 2019年12月 [ Paper ]
Tarin CLANUWAT, Mikel BOBER-IRIZAR, Asanobu KITAMOTO, Alex LAMB, Kazuaki YAMAMOTO, David HA, "Deep Learning for Classical Japanese Literature", NeurIPS 2018 Workshop on Machine Learning for Creativity and Design, arXiv:1812.01718, 2018年12月
北本朝展, 山本和明, "人文学データのオープン化を開拓する超学際的データプラットフォームの構築", 人文科学とコンピュータシンポジウムじんもんこん2016論文集, pp. 117-124, 2016年12月 [ Paper ]
北本朝展, "オープンサイエンスの動向と情報学分野へのインパクト", 電子情報通信学会技術報告, Vol. 116, No. 259, pp. 1-6, 2016年10月
日本文化とAIシンポジウム2019〜AIがくずし字を読む時代がやってきた〜
第2回CODHセミナーくずし字チャレンジ〜機械の認識と人間の翻刻の未来〜

メディアによる記事については、ニュースのページを随時更新していますが、以下の記事が特に参考になります。

「くずし字」ＡＩが解読ラーメン判別法も応用！, NHK WEB特集, 2019-12-02
くずし字解読　ＡＩの実力は？｜サイカルジャーナル｜NHKオンライン, NHK, 2019-11-20
How Machine Learning Can Help Unlock the World of Ancient Japan, The Gradient, 2019-11-17