くずし字チャレンジ!

くずし字チャレンジ!
Edo+150 Projects CODH

江戸時代の古典籍はくずし字で書かれていますが、ほとんどの現代の日本人はくずし字が読めません。では人工知能(AI)はくずし字を読めるようになるでしょうか?くずし字に関する大規模な機械学習データセット「日本古典籍くずし字データセット」を広く世界に公開し、AIによるくずし字認識(OCR)の研究開発を促進することで、1000年に及ぶ日本の文字文化を解読するというグランドチャレンジに挑みます。

データセットの公開だけでなく、コンテストの開催などを通じて知識やソフトウェアの共有を進めていく計画です。ぜひご参加下さい。

もっと詳しく

  • Kaggleコンペティション「くずし字認識」を開始

  • 2019 7/26

2019年7月19日、Kaggleコンペティション「くずし字認識」が始まりました。日本の古典籍画像中に含まれる文字(くずし字)の種類と位置を自動的に抽出する「くずし字OCRアルゴリズム」の開発が課題です。

コンペティションの公式ページはKuzushiji Recognition | Kaggle、また主催者のページであるKaggleコンペティション:くずし字認識には関連情報をまとめています。

今回のコンペティションは、Kaggleでも初の人文系コンペとなります。特に日本の文字を対象としたコンペですので、日本のコンピュータビジョン・機械学習・AI研究コミュニティなどからの積極的な参加を期待しております!

またコンペの副題は「千年に及ぶ日本文化への扉を開く」としました。これは、日本で千年にわたって使われてきたくずし字の存在を再認識するとともに、いまや大多数の日本人が読めなくなった過去の日本文化へのアクセスを向上させるために、革新的なツールやデータの構築に挑戦して欲しいというコンペ開催者からのメッセージです。我々の文化を研究するための現代的な基盤を作ることは、AIを用いた社会課題の解決の中でも特に重要な取り組みだと考えています。

コンペの締切は10月14日です。まだ始まって1週間ですが、すでに高得点を叩き出すアルゴリズムも登場しています。また入賞者の方々に対しては、11月11日に開催する「日本文化とAIシンポジウム2019」にて、表彰式および成果発表を行います。ぜひご参加下さい。

ちなみに現在は、第23回PRMUアルゴリズムコンテスト「くずし字認識チャレンジ2019」も開催しておりますので、こちらもどうぞ。

  • 第23回PRMUアルゴリズムコンテスト「くずし字認識チャレンジ2019」開始

  • 2019 6/16

第23回PRMUアルゴリズムコンテスト「くずし字認識チャレンジ2019」が2019年5月31日から始まりました。CODHが後援するコンペティションとしては、第21回PRMUアルゴリズムコンテストに引き続いて2回目です。皆様の積極的なご応募をお待ちしています。

最近はくずし字データセットの普及も進み、このデータセットを活用して文字認識の研究に挑む情報学研究者も増えてきました。データセットの公開が研究を活性化するという一つの好例になりつつあります(参考:電子情報通信学会誌「文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――」公開)。

さらに機械学習研究者の参入を容易にするために、昨年(2018)の12月にはKuzushiji MNISTデータセットも公開しました。このデータセットは、文字認識のためのデータセットとして著名なMNISTと互換形式になっているため、MNIST用の既存コードを1行変更するだけで研究が始められる点が魅力です。こうしたデータセットを活用することで、世界中の研究者がくずし字に興味を持ち始めています。

例えばBy the Book: AI Making Millions of Ancient Japanese Texts More Accessible(The Official NVIDIA Blog)(日本語訳)やChoosing AI Benchmark Tasks to Benefit Other Fields(Quebec Artificial Intelligence Institute - Mila)などの記事は、世界中の人々が注目するブログで、しかも英文で、くずし字研究が紹介されたことに価値があります。さらに、Deep learning creates Rosetta Stone for Medieval Japanese scriptは、米国サンフランシスコにおける機械学習ミートアップで、くずし字データセットを題材としたレクチャーが行われる様子を紹介しています。その他の紹介記事については、ニュースもご覧下さい。

このようにくずし字データセットは日本文化に対する世界の関心を高める役割も果たしています。そしてデータセットを活用したコンペティションは、機械学習の初心者から上級者まで、明確な目的のもと研究に取り組むには最適な場となります。PRMUアルゴリズムコンテストの方も、特にこの分野の研究に取り組んでいる学部生や大学院生の方などは、ぜひ取り組んでみてください。

  • 電子情報通信学会誌「文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――」公開

  • 2019 6/1

2019年6月1日付で、以下の論文が公開されました。CODHを中心としたくずし字認識の研究に関しては、現時点でこれが最良の論文です。

北本 朝展, カラーヌワット タリン, 宮崎 智, 山本 和明, "文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――", 電子情報通信学会誌, Vol. 102, No. 6, pp. 563-568, 2019年6月

この論文は、電子情報通信学会のウェブサイトからダウンロード可能です。また人文学研究データリポジトリでは、セルフアーカイブ版をオープンアクセスで公開しています。

  • AIくずし字認識(一文字)公開

  • 2019 5/1

日本古典籍くずし字データセット 文字種(くずし字)一覧の個々の文字を、元の古典籍画像上で確認できるようにしました。例えば「」の文字をクリックすると、くずし字認識ビューアで元の古典籍画像を表示し、文字の位置(四角形)を青線で表示します。これにより、切り取られる前の古典籍ではどのような文脈で使われた文字なのかを確認できます。

さらにこのビューアはAIくずし字認識(一文字)機能も備えておりますので、AI(ディープラーニング/機械学習)によるくずし字認識もお試しください。

  • 人文科学とコンピュータ研究会でのパネルディスカッション・PRMU CH賞表彰

  • 2018 2/2

第116回 人文科学とコンピュータ研究会発表会で、PRMUアルゴリズムコンテストCH賞の表彰を行いました。東京農工大学中川研究室のチームを代表して、Tuan Nam Lyさんを研究会に招待し、くずし字認識コンテストに対する感想や、今後の見通しなどを中心にパネルで議論しました。

パネルディスカッションの前に、公立はこだて未来大学の寺沢憲吾氏による基調講演「歴史的文書画像に対する内容解析への取り組み」があり、くずし字や近代書籍に対する文字認識の難しさが紹介されました。特に、文字の切り出しと文字の認識は切り離せるのかという問題について、文字を認識しながら切り出さないと読めない例がいくつか紹介され、認識と切り出しを同時に行う新しいアプローチが必要であるという考えが示されました。同様の問題はくずし字にも当てはまります。機械は文字を切らないと読めない、しかし読めないと切れないという堂々巡りをどう解決するかは重要な問題です。

このような報告を踏まえ、最初にくずし字機械学習の課題について議論しました。今回のアルゴリズムコンテストの焦点は、3文字認識のレベル2、また未知文字数認識のレベル3が難しい問題でしたが、これの評価として1文字でも認識を間違えると不正解になるというのは、実際のニーズに比べて厳しすぎるのではないかという意見がありました。複数文字認識で1文字だけ間違っていても、そこだけ修正すれば良いのだから十分ではないか、などのように、人文学者によるニーズを踏まえた評価基準についても検討する必要がありそうです。

一方、最近ユニコードに取り入れられたくずし字の文字コードを使い、字母ごとに異なる文字として認識させた方がよいのではという意見も出ました。これに対しては、そもそもデータを作成するのが大変なこと、またディープラーニングは複数字母データを十分に吸収できる柔軟性を備えることなどの理由で、当面は現代仮名の文字コードに対する文字認識として進める方法で問題なかろうと考えています。

次にコンテストの課題設定について、次回のコンテストはどんな形式がよいと思うかについて議論しました。まず考えなければならないのは、評価の負担が重いという点です。実際にPRMUアルゴリズムコンテストでは、評価担当者が多くの時間を費して評価を行いました。同じことが次回のコンテストでも可能かと考えると、なかなか難しいのが実情です。PRMUアルゴリズムコンテストの大きな目的は大学院生を中心とした若い研究者の教育にあるため、単なるパフォーマンスの評価で順位が決まるわけではなく、レポートを提出してもらって手法の独創性なども評価します。一方、Kaggleなどの機械学習コンテストプラットフォームにはパフォーマンスを自動計測する仕組みが備わっているため、誰がトップなのかを決めるのはずっと楽になります。コンテストの評価の負担をいかに軽くするかは、何をコンテストの目標にするかも含めて、評価の問題から考えていく必要がありそうです。

また今回のコンテストの課題は仮名のみでしたが、次回は漢字を含めてはどうかという点についても議論しました。漢字を入れると文字数が増えて難易度は上がりますが、それだけ新しい研究課題も増えますので、難易度の高い問題も積極的に出題するのがよいのではないかという意見がありました。また現在の字形データセットは文字と文字画像のペアを使っていますが、みんなで翻刻のようにページ画像とページテキストのペアが大量に入手できる場合に、これを新たなコンテストの題材として使ってみるのも面白そうです。くずし字に関する問題点が山積していることを考えると、コンテストの出題に困ることは当面はなさそうです。

そして今回のコンテスト受賞者のナムさんがベトナム人であることを踏まえ、コンテストの国際化についても議論しました。ナムさんからは、データの説明が英語で読めるなら日本人でなくても問題に挑戦できる、とのコメントがありました。ディープラーニングのチューニングには言語的な知識はあまり関係ないので、データセットの整備さえきちんとできていれば、外国人にも積極的に呼び掛けたほうがよさそうです。ただしこの種の文字認識コンテストの「乱立」がコミュニティでも問題視されている面があるようで、しっかりした目的を示していくことが重要ではないかと感じました。

最後に長期的な展望として、コンテストで得られた知識を一つのソフトウェア基盤に統合できるかという問い掛けをしました。これに対して、まずAPIなどを整備して参加者が成果を接続しやすくすべきという意見と、オープンソースなどで参加者がコードを共有しているうちに自然に知識がまとまっていくのではないかという意見がありました。ソフトウェア基盤の整備については、OpenCVなどの優れた例はあるものの、大規模なコミュニティを運営するリソースがないと継続は難しいのも確かです。しかし、何らかの形で成果物を共有する場所は必要で、そこにCODHが果たせる役割もあると考えました。

パネルディスカッションの最後にナムさんが「今後もくずし字認識の研究を続けていきたい」と力強く宣言してパネルディスカッションは終了しました。実際のところ、ナムさんはコンテスト後も手法の改良を続け、すでにコンテスト応募時の性能を大幅に上回る性能を叩き出しています。来年度もコンテストの開催を期待しているとのことなので、CODHでもコンテスト開催に向けてこれから動きたいと考えています。またコンテストは、文字認識の成果を向上させるという目的だけにとどまらず、問題を明確にアピールすることで世間の注目を集めるという効果もあります。コンテストを継続的に盛り上げていく工夫も重要な課題となるでしょう。