みを(miwo):AIくずし字認識アプリ

お知らせ

2022-10-07 「みを:AIくずし字認識アプリ」が、2022年度グッドデザイン賞を受賞しました。プレスリリース:世界初のAIくずし字認識アプリ「みを(miwo)」が2022年度グッドデザイン賞を受賞~くずし字教育や古文書による地域史料調査などにも貢献~

公開

Android: Google Play

iOS: App Store

2021年8月30日、Android版とiOS版のアプリを正式公開しました。アプリの利用は無料です。Google PlayまたはApp Storeからインストールし、スマートフォンやタブレットなどでご利用下さい。 [もっと詳しく..]

シェア

「みを」アプリに関する情報をシェアする際には、ハッシュタグ「#miwoapp」をお使いください。

Twitter: #miwoapp

主な機能

くずし字認識結果の文字表示/書籍画像との比較スライダー 変体仮名の字母表示 認識結果のテキスト表示 認識結果の保存と読み出し

ご利用にあたって

「みを」のご利用にあたっては、プライバシーポリシー/利用規約や、注意事項をお読みください。

「みを」のAIくずし字認識は決して完璧ではありません。くずし字認識結果には誤りが含まれることがありますので、ユーザご自身でご確認ください。また本センターは、くずし字認識の誤りに関するお問い合わせは受け付けておりません。誤りのない翻刻をご希望の場合は、企業や個人が提供する翻刻サービスなどをご利用下さい。

AIくずし字認識は、CODHが運用するサーバに画像を送信して認識する仕組みを用いていますが、サーバに送信された画像、およびその認識結果は、サーバ上には保存しません。

問題解決

  1. 最新のOSにアップデートすると問題が解決する場合があります。
  2. iOS、Androidとも、発売から4-5年以上経過した機種では、動作に問題が生じる場合があるようです。ただいま修正に取り組んでいます。
  3. アプリの動作にはカメラやアルバムへのアクセス許可が必要です。もし誤って拒否してしまい、アプリが使えなくなったときは、アプリを削除して再インストールしてください。

もし以上の対応では解決できない場合は、以下のページから状況をお知らせください。スマホ/タブレットの機種(モデル)や、OSバージョンなどについても、できるだけ情報提供をお願いいたします。

「みを」アプリに関するご意見

プロトタイプ

2021年4月19日から6月18日まで開催中の展覧会プログラム文字形—AIが開く くずし字の風景 @ 慶應義塾ミュージアム・コモンズで、「みを」の体験版を公開しました。

くずし字認識アプリ「みを(miwo)」を、慶應義塾ミュージアム・コモンズの展覧会プログラム「文字形—AIが開く くずし字の風景」で試した記録です。江戸時代初期(17世紀)の『三十六歌仙図屏風』のくずし字を認識してみたところ、ガラス越しに展示された3次元の屏風をカメラで撮影した場合でも、くずし字認識ができることがわかりました。

くずし字とAI

くずし字がきちんと読める人は数千人程度(人口の0.01%程度)と言われます。日本に残された大量の歴史的資料をより使いやすくするには、くずし字を翻刻する必要がありますが、くずし字を読める人が少ないため翻刻には非常に長い時間が必要です。そこで私たちは考えました。AI(人工知能)はその助けになるでしょうか。

ROIS-DS人文学オープンデータ共同利用センター(CODH)では、AI物体検出技術を活用し、画像中に存在する文字を直接探し出して翻刻できる「KuroNet(クロネット)」くずし字認識を開発しました。その後、世界中から知恵を集めるKaggleくずし字認識コンペを開催し、KuroNetを上回るAIくずし字認識モデルを見出しました。

さらにくずし字認識を誰もが気軽に使えるよう、AIくずし字認識モデルを活用したスマホアプリ「みを(miwo)」を開発しました。「みを」は『源氏物語』第14帖「みをつくし」にちなんだ名前です。「みをつくし」が人々の水先案内となるように、「みを」アプリがくずし字資料の海を旅する案内となることを目指しています。

AIくずし字認識

「みを」はAI物体検出技術に基づくAIくずし字認識システムRURI(瑠璃)を利用します。これは、カラーヌワット・タリン(Google Research)が、「みを」バージョン1.1のリリースに合わせて、新たに開発したものです。従来のAIくずし字認識モデルと比較して、RURIにはAI物体検出技術をくずし字認識に最適化するための工夫が加えられており、文字背景の色や模様が複雑な場合でも精度が向上しています。くずし字認識の対象としては、江戸時代の版本を得意としますが、手書きの古文書にも使えます。

RURIは、国文学研究資料館が作成した100万文字以上の「くずし字データセット」を、さらに独自に強化したデータセットを学習することで、これまで認識できなかった一部の文字が新たに認識できるようになりました。

CODHではその他にも、AIくずし字OCRサービスとして古典籍・古文書OCRを提供しています。詳しくはくずし字OCR(AIくずし字認識)や、くずし字アプリ・サービス(検索/認識/解析/解読)をご覧下さい。

メンバー

開発者

  • カラーヌワット・タリン(Google Research)

共同開発者

  • 北本 朝展(ROIS-DS CODH/NII)
  • Mikel Bober-Irizar

共同研究者

  • Siyu Han

アートディレクション

  • Rinna♡猫りんな

関連記事

以下の記事では、アプリの公開に至るまでの歩みを紹介しています。

  1. 源氏物語が好きすぎてAIくずし字認識に挑戦でグーグル入社 タイ出身女性が語る「前人未到の人生」, Ledge.ai, 2021-10-07

また以下の記事は、アプリの開発にまつわるインタビューです。

  1. AIくずし字認識アプリ「みを」が拓く未来, 歴史研究, 78-85ページ, 第700号, 2022年5月

その他、アプリに関する具体的な利用例を含む記事を紹介します。

  1. くずし字認識アプリ『みを』で江戸時代の数学書『塵劫記』を読む, デイリーポータルZ, 2022-06-22
  2. 江戸時代の国語辞典には人相占いがある, デイリーポータルZ, 2022-07-13
  3. 新潟県村上市あらかわ地区まちづくり広報誌「あらかわらばん」第57号, 2022年7月号
  4. 源氏物語も春画の文字も読めちゃう!AIくずし字認識アプリ「みを(miwo)」開発者インタビュー, 和樂web, 2021-10-19
  5. 機械学習で古文書のくずし字を読み取れるアプリ「みを」、正式公開, ケータイ Watch, 2021-08-31
  6. AIで“くずし字”を解読するスマホアプリが無料公開 コンペ1位の認識モデル採用, ITmedia NEWS, 2021-08-31
  7. 江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開, TechCrunch Japan, 2021-08-31
  8. AIくずし字認識アプリ「みを(miwo)」を使ってみた, GIGAZINE, 2021-08-31
  9. 「家の掛け軸が読めた」「祖父の遺作を解読できそう」 くずし字を“読める形”に変換するAIアプリ「みを」に反響, ねとらぼ, 2021-09-02
  10. 「最新研究を生かしたアプリケーション」を試す ほか, INTERNET Watch, 2021-09-03
  11. くずし字を読めるようにする「みを」。達筆な手紙にも使えるかも?, ケータイ Watch, 2021-09-10

受賞

  1. 2022年度グッドデザイン賞, 公益財団法人日本デザイン振興会, 2022-10-07
  2. 2021年度VLED勝手表彰 優秀賞, 一般社団法人コード・フォー・ジャパン, 2022-04-22

研究費

「みを」アプリは、人文学研究を支援し、古典日本文学や日本文化を広めるため、無料で配布しております。「みを」アプリで用いるサーバ(GPU含む)は、ROIS-DS人文学オープンデータ共同利用センターが運用しています。また、アプリの開発やAIくずし字認識技術の研究開発には、以下の研究費の支援を受けています。

  1. ディープラーニングによるEnd-to-End日本古典籍くずし字認識の研究, JSPS科学研究費 若手研究(19K13085), 研究代表者 カラーヌワット・タリン
  2. 資料調査のためのオンデバイスくずし字認識, JST ACT-X AI活用で挑む学問の革新と創成(JPMJAX20A4), 研究代表者 カラーヌワット・タリン
  3. 歴史ビッグデータ研究基盤による過去世界のデータ駆動型復元と統合解析, JSPS科学研究費 基盤研究A(19H01141), 研究代表者 北本朝展

実績

公開以来、1,036,621 枚の画像を認識しました。 (2022-12-07T14:25:06+09:00 現在)

ニュース

2022-10-26

「みを」バージョン1.1をリリースしました(参考:プレスリリース)。

2022-10-07

「みを」が2022年度グッドデザイン賞を受賞しました。

2021-08-30

「みを」バージョン1.0をリリースしました。