みを(miwo) - AIくずし字認識アプリ

公開

Android: Google Play

iOS: App Store

2021年8月30日、日本時間正午、Android版とiOS版のアプリを正式公開しました。アプリの利用は無料です。Google PlayまたはApp Storeからインストールし、スマートフォンやタブレットなどでご利用下さい。 [もっと詳しく..]

シェア

「みを」アプリに関する情報をシェアする際には、ハッシュタグ「#miwoapp」をお使いください。

Twitter: #miwoapp

また「みを」アプリに関するご意見もお待ちしております。

ご利用にあたって

「みを」のご利用にあたっては、プライバシーポリシー/利用規約や、注意事項をお読みください。

「みを」のAIくずし字認識は決して完璧ではありません。くずし字認識結果には誤りが含まれることがありますので、ユーザご自身でご確認ください。また本センターは、くずし字認識の誤りに関するお問い合わせは受け付けておりません。誤りのない翻刻をご希望の場合は、企業や個人が提供する翻刻サービスなどをご利用下さい。

AIくずし字認識は、CODHが運用するサーバに画像を送信して認識する仕組みを用いていますが、サーバに送信された画像、およびその認識結果は、サーバ上には保存しません。

問題解決

  1. 最新のOSにアップデートすると問題が解決する場合があります。
  2. iOS、Androidとも、発売から4-5年以上経過した機種では、動作に問題が生じる場合があるようです。ただいま修正に取り組んでいます。
  3. アプリの動作にはカメラやアルバムへのアクセス許可が必要です。もし誤って拒否してしまい、アプリが使えなくなったときは、アプリを削除して再インストールしてください。

プロトタイプ

2021年4月19日から6月18日まで開催中の展覧会プログラム文字形—AIが開く くずし字の風景 @ 慶應義塾ミュージアム・コモンズで、「みを」の体験版を公開しました。

くずし字認識アプリ「みを(miwo)」を、慶應義塾ミュージアム・コモンズの展覧会プログラム「文字形—AIが開く くずし字の風景」で試した記録です。江戸時代初期(17世紀)の『三十六歌仙図屏風』のくずし字を認識してみたところ、ガラス越しに展示された3次元の屏風をカメラで撮影した場合でも、くずし字認識ができることがわかりました。

くずし字とAI

くずし字がきちんと読める人は数千人程度(人口の0.01%程度)と言われます。日本に残された大量の歴史的資料をより使いやすくするには、くずし字を翻刻する必要がありますが、くずし字を読める人が少ないため翻刻には非常に長い時間が必要です。そこで私たちは考えました。AI(人工知能)はその助けになるでしょうか。

ROIS-DS人文学オープンデータ共同利用センター(CODH)では、AI物体検出技術を活用し、画像中に存在する文字を直接探し出して翻刻できる「KuroNet(クロネット)」くずし字認識を開発しました。KuroNetは国文学研究資料館が作成した「くずし字データセット」を学習しているため、江戸時代の版本のくずし字認識を得意としています。

さらにくずし字認識を誰もが気軽に使えるよう、CODHではKuroNetを活用したスマホアプリ「みを(miwo)」を開発しています。「みを」は『源氏物語』第14帖「みをつくし」にちなんだ名前です。「みをつくし」が人々の水先案内となるように、「みを」アプリがくずし字資料の海を旅する案内となることを目指しています。

AIくずし字認識

「みを」では、CODHが開発したくずし字認識モデルKuroNet、およびKaggleくずし字認識コンペで1位となったtascj氏が開発したくずし字認識モデルを用いています。またこれらのAIモデルの学習には、国文学研究資料館が作成しCODHが公開する日本古典籍くずし字データセットを活用しました。

メンバー

開発者

  • カラーヌワット・タリン

共同開発者

  • 北本 朝展
  • Mikel Bober-Irizar

共同研究者

  • Alex Lamb
  • Siyu Han

アートディレクション

  • Rinna♡猫りんな

研究費

「みを」アプリは、人文学研究を支援し、古典日本文学や日本文化を広めるため、無料で配布しております。「みを」アプリで用いるサーバ(GPU含む)は、ROIS-DS人文学オープンデータ共同利用センターが運用しています。また、アプリの開発やAIくずし字認識技術の研究開発には、以下の研究費の支援を受けています。

  1. ディープラーニングによるEnd-to-End日本古典籍くずし字認識の研究, JSPS科学研究費 若手研究(19K13085), 研究代表者 カラーヌワット・タリン
  2. 資料調査のためのオンデバイスくずし字認識, JST ACT-X AI活用で挑む学問の革新と創成(JPMJAX20A4), 研究代表者 カラーヌワット・タリン
  3. 歴史ビッグデータ研究基盤による過去世界のデータ駆動型復元と統合解析, JSPS科学研究費 基盤研究A(19H01141), 研究代表者 北本朝展

実績

公開以来、62,742 枚の画像を認識しました。 (2021-09-19T00:31:52+09:00 現在)