くずし字チャレンジ!とは?

概要

江戸時代の古典籍はくずし字で書かれており、現代の日本人でそれをすらすら読める人は限られています。では人工知能(AI)をトレーニングすれば、くずし字を読めるようになるのでしょうか?くずし字の大規模な学習データセットである日本古典籍くずし字データセットを広く世界に向けて公開し、みんなの力で「くずし字×AI」というグランドチャレンジに挑みます。

江戸時代の古典籍を読むためには、くずし字が読めなければなりません。しかし、日本語であるにもかかわらず、日本人でもくずし字がスラスラと読める人は少ないのが現状です。そのため、たった150年前に書かれた膨大な知識は、古典籍に埋もれたまま現代の日本人がアクセスできない情報となってきました。

そこで近年流行しているのが、くずし字を学ぶ教室やくずし字アプリによって、くずし字を読める人間を増やそうという活動です。これはこれで重要なことですが、人工知能が大流行する現在、人間の代わりにコンピュータにくずし字を読ませることはできないのか?と考える人も多いでしょう。

実は現代の印刷文書(例えば書籍)については、OCR(光学的文字認識)というソフトウェアが、かなり高い精度で文書を自動的にテキスト化してくれます。ならば、OCRのくずし字版を作ればよいのではないか。まさしく「くずし字チャレンジ!」の最終目標はそこにあります。

しかし、そう簡単ではないのが現実です。第一に文字のレベルでは、古典籍で使われるくずし字は手書き文字のため、現代の活字(フォント)に比べて文字認識はずっと難しくなります。第二にレイアウトのレベルでは、古典籍で使われる木版印刷はレイアウト設定が自由なため、レイアウトが定型的な現代の活版印刷に比べて文書構造の認識がずっと難しくなります。こうした困難を乗り越えて、古典籍を全自動でテキスト化してくれるソフトウェアは、まだこの世の中に存在しないのです。

くずし字チャレンジ!はこの難問に対して、集団の力でアタックしていきたいと考えています。例えば、プログラムコンテストなどを開催して、みんなで同じ問題にアタックすることにより、よい解法を見出せる可能性が高まります。また、くずし字の全自動解読という究極の問題よりも簡単でかつ有用な部分問題を当面の目標に設定することで、段階的に技術を改善していくことも可能となります。

くずし字チャレンジ!は、国文学研究資料館との共同研究に基づき大規模なデータセットを構築するとともに、江戸時代から150年を経た現代の技術を活用して、江戸の解読に挑むプロジェクトです。皆様の積極的な参加をお待ちしています!

なお、くずし字に関連する情報については、第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜も参考にして下さい。

協力