KuroNetくずし字認識サービス

ディープラーニング(AI)を用いた多文字くずし字OCRサービスを提供します。IIIF (International Image Interoperability Framework)に準拠する画像のみが対象です。それ以外の画像については、一文字くずし字OCRのKogumaNetくずし字認識サービスをご利用下さい。

KuroNetくずし字認識サービス

KuroNetくずし字認識サービス

KuroNetくずし字認識サービスは、IIIF (International Image Interoperability Framework)に準拠した画像を対象に、多文字くずし字OCR機能を提供します。サービスの具体的な利用方法については、リンク先をご覧下さい。

KuroNetくずし字認識ビューア

KuroNetくずし字認識ビューア

KuroNetくずし字認識ビューアは、KuroNetくずし字認識サービスを利用するための入口となります。IIIF (International Image Interoperability Framework)に対応した画像をビューアで表示し、ここからサービスに入ってください。

日本古典籍くずし字データセット

日本古典籍くずし字データセット

KuroNetくずし字認識サービスの学習データとなっているデータセットです。KuroNetはこのデータセットを学習しているため、このデータセットに存在する文字しか認識できません。旧字と新字の統合などもこのデータセットの作成方針にしたがいます。またデータセットで出現頻度が低い文字は、認識が困難となる場合もありますので、精度を向上させるにはより大規模なデータセットを構築することが重要です。

参考文献

KuroNetについては、以下の文献を参照して下さい。

背景も含めた全体像の中でのKuroNetの位置づけについては、以下をご覧下さい。

  1. 北本 朝展, カラーヌワット タリン, 宮崎 智, 山本 和明, "文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――", 電子情報通信学会誌, Vol. 102, No. 6, pp. 563-568, doi:10.20676/00000349, 2019年6月
  2. 北本 朝展, "データ駆動型人文学研究の発展とAIによるくずし字認識", 月刊J-LIS, Vol. 6, No. 8, pp. 36-39, doi:10.20676/00000352, 2019年11月

KuroNetの技術的な面については、以下をご覧下さい。

  1. Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning", 15th International Conference on Document Analysis and Recognition (ICDAR2019), pp. (in press), arXiv:1910.09433, 2019年9月
  2. Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "End-to-End Pre-Modern Japanese Character (Kuzushiji) Spotting with Deep Learning", 人文科学とコンピュータシンポジウム じんもんこん2018論文集, pp. 15-20, 2018年12月 (in English) [ Paper ]

CODHによる関連するプロジェクトや、くずし字認識の関連プロジェクトについては、以下をご覧下さい。

  1. 北本 朝展, カラーヌワット タリン, Alex LAMB, Mikel BOBER-IRIZAR, "くずし字認識のためのKaggle機械学習コンペティションの経過と成果", 人文科学とコンピュータシンポジウム じんもんこん2019論文集, pp. (in press), 2019年12月
  2. Tarin CLANUWAT, Mikel BOBER-IRIZAR, Asanobu KITAMOTO, Alex LAMB, Kazuaki YAMAMOTO, David HA, "Deep Learning for Classical Japanese Literature", NeurIPS 2018 Workshop on Machine Learning for Creativity and Design, arXiv:1812.01718, 2018年12月
  3. 北本 朝展, 山本 和明, "人文学データのオープン化を開拓する超学際的データプラットフォームの構築", 人文科学とコンピュータシンポジウム じんもんこん2016論文集, pp. 117-124, 2016年12月 [ Paper ]
  4. 日本文化とAIシンポジウム2019〜AIがくずし字を読む時代がやってきた〜
  5. 第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜

メディアによる記事については、ニュースのページを随時更新していますが、以下の記事が特に参考になると思います。

  1. くずし字解読 AIの実力は?|サイカルジャーナル|NHKオンライン, NHK, 2019-11-20
  2. How Machine Learning Can Help Unlock the World of Ancient Japan, The Gradient, 2019-11-17