KuroNetくずし字認識サービス(AI OCR)

ディープラーニング(AI)を用いた多文字のくずし字OCRサービスを提供します。より詳しい情報についてはくずし字OCR(AIくずし字認識)をご覧下さい。

KuroNetくずし字認識サービス

KuroNetくずし字認識サービス

KuroNetくずし字認識サービスは、IIIF (International Image Interoperability Framework)に準拠した画像を対象に、多文字くずし字OCR機能を提供します。サービスの具体的な利用方法については、リンク先をご覧下さい。

なおIIIF以外の画像については、一文字くずし字OCRのKogumaNetくずし字認識サービスをご利用下さい。

KuroNetくずし字認識ビューア

KuroNetくずし字認識ビューア

KuroNetくずし字認識ビューアは、KuroNetくずし字認識サービスを利用するための入口となります。ビューアにIIIF (International Image Interoperability Framework)マニフェストをドラッグ&ドロップするか、以下のボックスにIIIFマニフェストURLを入力して下さい。

KuroNetくずし字認識ビューアを起動:

日本古典籍くずし字データセット

日本古典籍くずし字データセット

KuroNetくずし字認識サービスの学習データとなっているデータセットです。KuroNetはこのデータセットを学習しているため、このデータセットに存在する文字しか認識できません。旧字と新字の統合などもこのデータセットの作成方針にしたがいます。またデータセットで出現頻度が低い文字は、認識が困難となる場合もありますので、精度を向上させるにはより大規模なデータセットを構築することが重要です。

参考文献

KuroNet(クロネット)については、以下の文献を参照して下さい。

背景も含めた全体像の中でのKuroNetの位置づけについては、以下をご覧下さい。

  1. 北本 朝展, カラーヌワット タリン, 宮崎 智, 山本 和明, "文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――", 電子情報通信学会誌, Vol. 102, No. 6, pp. 563-568, doi:10.20676/00000349, 2019年6月
  2. 北本 朝展, "データ駆動型人文学研究の発展とAIによるくずし字認識", 月刊J-LIS, Vol. 6, No. 8, pp. 36-39, doi:10.20676/00000352, 2019年11月
  3. 北本 朝展, カラーヌワット タリン, "AIによるくずし字認識と歴史的資料全文検索への道", 専門図書館, No. 300, pp. 26-32, 2020年5月

KuroNetの技術的な面については、以下をご覧下さい。

  1. Alex LAMB, Tarin CLANUWAT,Asanobu KITAMOTO, "KuroNet: Regularized Residual U-Nets for End-to-End Kuzushiji Character Recognition", SN Computer Science, Vol. 1, No. 177, pp. 1-15, doi:10.1007/s42979-020-00186-z, 2020年5月 (in English)
  2. Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning", 15th International Conference on Document Analysis and Recognition (ICDAR2019), pp. (in press), arXiv:1910.09433, 2019年9月
  3. Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "End-to-End Pre-Modern Japanese Character (Kuzushiji) Spotting with Deep Learning", 人文科学とコンピュータシンポジウム じんもんこん2018論文集, pp. 15-20, 2018年12月 (in English) [ Paper ]

CODHによる関連するプロジェクトや、くずし字認識の関連プロジェクトについては、以下をご覧下さい。

  1. 北本 朝展, カラーヌワット タリン, ボーバー・イリザー ミケル, "Kaggle くずし字認識─世界規模の人文系コンペ開催への挑戦─", 人工知能学会誌, Vol. 35, No. 3, pp. 366-376, 2020年5月 [ Paper ]
  2. 北本 朝展, カラーヌワット タリン, Alex LAMB, Mikel BOBER-IRIZAR, "くずし字認識のためのKaggle機械学習コンペティションの経過と成果", 人文科学とコンピュータシンポジウム じんもんこん2019論文集, pp. 223-230, 2019年12月 [ Paper ]
  3. Tarin CLANUWAT, Mikel BOBER-IRIZAR, Asanobu KITAMOTO, Alex LAMB, Kazuaki YAMAMOTO, David HA, "Deep Learning for Classical Japanese Literature", NeurIPS 2018 Workshop on Machine Learning for Creativity and Design, arXiv:1812.01718, 2018年12月
  4. 北本 朝展, 山本 和明, "人文学データのオープン化を開拓する超学際的データプラットフォームの構築", 人文科学とコンピュータシンポジウム じんもんこん2016論文集, pp. 117-124, 2016年12月 [ Paper ]
  5. 北本 朝展, "オープンサイエンスの動向と情報学分野へのインパクト", 電子情報通信学会技術報告, Vol. 116, No. 259, pp. 1-6, 2016年10月
  6. 日本文化とAIシンポジウム2019〜AIがくずし字を読む時代がやってきた〜
  7. 第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜

メディアによる記事については、ニュースのページを随時更新していますが、以下の記事が特に参考になると思います。

  1. 「くずし字」AIが解読 ラーメン判別法も応用!, NHK WEB特集, 2019-12-02
  2. くずし字解読 AIの実力は?|サイカルジャーナル|NHKオンライン, NHK, 2019-11-20
  3. How Machine Learning Can Help Unlock the World of Ancient Japan, The Gradient, 2019-11-17