くずし字チャレンジ!

くずし字チャレンジ!
Edo+150 Projects CODH

江戸時代の古典籍はくずし字で書かれていますが、ほとんどの現代の日本人はくずし字が読めません。では人工知能(AI)はくずし字を読めるようになるでしょうか?くずし字に関する大規模な機械学習データセット「日本古典籍くずし字データセット」を広く世界に公開し、AIによるくずし字認識(OCR)の研究開発を促進することで、1000年に及ぶ日本の文字文化を解読するというグランドチャレンジに挑みます。

データセットの公開だけでなく、コンテストの開催などを通じて知識やソフトウェアの共有を進めていく計画です。ぜひご参加下さい。

もっと詳しく

  • Kaggleコンペティション「くずし字認識」が終了

  • 2019 10/18

2019年10月14日23:59UTC(2019年10月15日8:59JST)、Kaggleコンペティション「くずし字認識」が終了しました。そして昨日、上位5名の入賞者も正式に決定しました。結果については、コンペティションの公式ページのLeaderboardをご覧下さい。

今回のコンペティションで開発した解法については、すでにいくつかのチームがDiscussionに公表しています。これらは日本文化を読み解くための貴重な知見になりそうです。コンペ主催者もこれらを分析することで、よりよいくずし字認識手法を研究開発したいと考えていきます。非常に熱心にコンペにご参加いただいた皆様、本当にありがとうございました!

次のビッグイベントは、11月11日に開催する「日本文化とAIシンポジウム2019」です。ここでKaggleコンペのまとめを行うだけでなく、日本国内の関連する研究なども一挙にご紹介します。まだ参加を受け付けておりますので、ぜひお越し下さい。

  • Kaggleコンペティション「くずし字認識」を開始

  • 2019 7/26

2019年7月19日、Kaggleコンペティション「くずし字認識」が始まりました。日本の古典籍画像中に含まれる文字(くずし字)の種類と位置を自動的に抽出する「くずし字OCRアルゴリズム」の開発が課題です。

コンペティションの公式ページはKuzushiji Recognition | Kaggle、また主催者のページであるKaggleコンペティション:くずし字認識には関連情報をまとめています。

今回のコンペティションは、Kaggleでも初の人文系コンペとなります。特に日本の文字を対象としたコンペですので、日本のコンピュータビジョン・機械学習・AI研究コミュニティなどからの積極的な参加を期待しております!

またコンペの副題は「千年に及ぶ日本文化への扉を開く」としました。これは、日本で千年にわたって使われてきたくずし字の存在を再認識するとともに、いまや大多数の日本人が読めなくなった過去の日本文化へのアクセスを向上させるために、革新的なツールやデータの構築に挑戦して欲しいというコンペ開催者からのメッセージです。我々の文化を研究するための現代的な基盤を作ることは、AIを用いた社会課題の解決の中でも特に重要な取り組みだと考えています。

コンペの締切は10月14日です。まだ始まって1週間ですが、すでに高得点を叩き出すアルゴリズムも登場しています。また入賞者の方々に対しては、11月11日に開催する「日本文化とAIシンポジウム2019」にて、表彰式および成果発表を行います。ぜひご参加下さい。

ちなみに現在は、第23回PRMUアルゴリズムコンテスト「くずし字認識チャレンジ2019」も開催しておりますので、こちらもどうぞ。

  • 第23回PRMUアルゴリズムコンテスト「くずし字認識チャレンジ2019」開始

  • 2019 6/16

第23回PRMUアルゴリズムコンテスト「くずし字認識チャレンジ2019」が2019年5月31日から始まりました。CODHが後援するコンペティションとしては、第21回PRMUアルゴリズムコンテストに引き続いて2回目です。皆様の積極的なご応募をお待ちしています。

最近はくずし字データセットの普及も進み、このデータセットを活用して文字認識の研究に挑む情報学研究者も増えてきました。データセットの公開が研究を活性化するという一つの好例になりつつあります(参考:電子情報通信学会誌「文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――」公開)。

さらに機械学習研究者の参入を容易にするために、昨年(2018)の12月にはKuzushiji MNISTデータセットも公開しました。このデータセットは、文字認識のためのデータセットとして著名なMNISTと互換形式になっているため、MNIST用の既存コードを1行変更するだけで研究が始められる点が魅力です。こうしたデータセットを活用することで、世界中の研究者がくずし字に興味を持ち始めています。

例えばBy the Book: AI Making Millions of Ancient Japanese Texts More Accessible(The Official NVIDIA Blog)(日本語訳)やChoosing AI Benchmark Tasks to Benefit Other Fields(Quebec Artificial Intelligence Institute - Mila)などの記事は、世界中の人々が注目するブログで、しかも英文で、くずし字研究が紹介されたことに価値があります。さらに、Deep learning creates Rosetta Stone for Medieval Japanese scriptは、米国サンフランシスコにおける機械学習ミートアップで、くずし字データセットを題材としたレクチャーが行われる様子を紹介しています。その他の紹介記事については、ニュースもご覧下さい。

このようにくずし字データセットは日本文化に対する世界の関心を高める役割も果たしています。そしてデータセットを活用したコンペティションは、機械学習の初心者から上級者まで、明確な目的のもと研究に取り組むには最適な場となります。PRMUアルゴリズムコンテストの方も、特にこの分野の研究に取り組んでいる学部生や大学院生の方などは、ぜひ取り組んでみてください。

  • 電子情報通信学会誌「文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――」公開

  • 2019 6/1

2019年6月1日付で、以下の論文が公開されました。CODHを中心としたくずし字認識の研究に関しては、現時点でこれが最良の論文です。

北本 朝展, カラーヌワット タリン, 宮崎 智, 山本 和明, "文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――", 電子情報通信学会誌, Vol. 102, No. 6, pp. 563-568, 2019年6月

この論文は、電子情報通信学会のウェブサイトからダウンロード可能です。また人文学研究データリポジトリでは、セルフアーカイブ版をオープンアクセスで公開しています。

  • AIくずし字認識(一文字)公開

  • 2019 5/1

日本古典籍くずし字データセット 文字種(くずし字)一覧の個々の文字を、元の古典籍画像上で確認できるようにしました。例えば「」の文字をクリックすると、くずし字認識ビューアで元の古典籍画像を表示し、文字の位置(四角形)を青線で表示します。これにより、切り取られる前の古典籍ではどのような文脈で使われた文字なのかを確認できます。

さらにこのビューアはAIくずし字認識(一文字)機能も備えておりますので、AI(ディープラーニング/機械学習)によるくずし字認識もお試しください。