くずし字チャレンジ!

くずし字チャレンジ!
Edo+150 Projects CODH

江戸時代の古典籍はくずし字で書かれており、現代の日本人でそれをすらすら読める人は限られています。では人工知能(AI)を学習させれば、くずし字を読めるようになるのでしょうか?くずし字の大規模な学習データセット「日本古典籍字形データセット」を広く世界に公開し、みんなの力で「くずし字×AI」というグランドチャレンジに挑みます。

データセットの公開だけでなく、コンテストの開催などを通じて知識やソフトウェアの共有を進めていく計画です。ぜひご参加下さい。

もっと詳しく

  • 人文科学とコンピュータ研究会でのパネルディスカッション・PRMU CH賞表彰

  • 2018 2/2

第116回 人文科学とコンピュータ研究会発表会で、PRMUアルゴリズムコンテストCH賞の表彰を行いました。東京農工大学中川研究室のチームを代表して、Tuan Nam Lyさんを研究会に招待し、くずし字認識コンテストに対する感想や、今後の見通しなどを中心にパネルで議論しました。

パネルディスカッションの前に、公立はこだて未来大学の寺沢憲吾氏による基調講演「歴史的文書画像に対する内容解析への取り組み」があり、くずし字や近代書籍に対する文字認識の難しさが紹介されました。特に、文字の切り出しと文字の認識は切り離せるのかという問題について、文字を認識しながら切り出さないと読めない例がいくつか紹介され、認識と切り出しを同時に行う新しいアプローチが必要であるという考えが示されました。同様の問題はくずし字にも当てはまります。機械は文字を切らないと読めない、しかし読めないと切れないという堂々巡りをどう解決するかは重要な問題です。

このような報告を踏まえ、最初にくずし字機械学習の課題について議論しました。今回のアルゴリズムコンテストの焦点は、3文字認識のレベル2、また未知文字数認識のレベル3が難しい問題でしたが、これの評価として1文字でも認識を間違えると不正解になるというのは、実際のニーズに比べて厳しすぎるのではないかという意見がありました。複数文字認識で1文字だけ間違っていても、そこだけ修正すれば良いのだから十分ではないか、などのように、人文学者によるニーズを踏まえた評価基準についても検討する必要がありそうです。

一方、最近ユニコードに取り入れられたくずし字の文字コードを使い、字母ごとに異なる文字として認識させた方がよいのではという意見も出ました。これに対しては、そもそもデータを作成するのが大変なこと、またディープラーニングは複数字母データを十分に吸収できる柔軟性を備えることなどの理由で、当面は現代仮名の文字コードに対する文字認識として進める方法で問題なかろうと考えています。

次にコンテストの課題設定について、次回のコンテストはどんな形式がよいと思うかについて議論しました。まず考えなければならないのは、評価の負担が重いという点です。実際にPRMUアルゴリズムコンテストでは、評価担当者が多くの時間を費して評価を行いました。同じことが次回のコンテストでも可能かと考えると、なかなか難しいのが実情です。PRMUアルゴリズムコンテストの大きな目的は大学院生を中心とした若い研究者の教育にあるため、単なるパフォーマンスの評価で順位が決まるわけではなく、レポートを提出してもらって手法の独創性なども評価します。一方、Kaggleなどの機械学習コンテストプラットフォームにはパフォーマンスを自動計測する仕組みが備わっているため、誰がトップなのかを決めるのはずっと楽になります。コンテストの評価の負担をいかに軽くするかは、何をコンテストの目標にするかも含めて、評価の問題から考えていく必要がありそうです。

また今回のコンテストの課題は仮名のみでしたが、次回は漢字を含めてはどうかという点についても議論しました。漢字を入れると文字数が増えて難易度は上がりますが、それだけ新しい研究課題も増えますので、難易度の高い問題も積極的に出題するのがよいのではないかという意見がありました。また現在の字形データセットは文字と文字画像のペアを使っていますが、みんなで翻刻のようにページ画像とページテキストのペアが大量に入手できる場合に、これを新たなコンテストの題材として使ってみるのも面白そうです。くずし字に関する問題点が山積していることを考えると、コンテストの出題に困ることは当面はなさそうです。

そして今回のコンテスト受賞者のナムさんがベトナム人であることを踏まえ、コンテストの国際化についても議論しました。ナムさんからは、データの説明が英語で読めるなら日本人でなくても問題に挑戦できる、とのコメントがありました。ディープラーニングのチューニングには言語的な知識はあまり関係ないので、データセットの整備さえきちんとできていれば、外国人にも積極的に呼び掛けたほうがよさそうです。ただしこの種の文字認識コンテストの「乱立」がコミュニティでも問題視されている面があるようで、しっかりした目的を示していくことが重要ではないかと感じました。

最後に長期的な展望として、コンテストで得られた知識を一つのソフトウェア基盤に統合できるかという問い掛けをしました。これに対して、まずAPIなどを整備して参加者が成果を接続しやすくすべきという意見と、オープンソースなどで参加者がコードを共有しているうちに自然に知識がまとまっていくのではないかという意見がありました。ソフトウェア基盤の整備については、OpenCVなどの優れた例はあるものの、大規模なコミュニティを運営するリソースがないと継続は難しいのも確かです。しかし、何らかの形で成果物を共有する場所は必要で、そこにCODHが果たせる役割もあると考えました。

パネルディスカッションの最後にナムさんが「今後もくずし字認識の研究を続けていきたい」と力強く宣言してパネルディスカッションは終了しました。実際のところ、ナムさんはコンテスト後も手法の改良を続け、すでにコンテスト応募時の性能を大幅に上回る性能を叩き出しています。来年度もコンテストの開催を期待しているとのことなので、CODHでもコンテスト開催に向けてこれから動きたいと考えています。またコンテストは、文字認識の成果を向上させるという目的だけにとどまらず、問題を明確にアピールすることで世間の注目を集めるという効果もあります。コンテストを継続的に盛り上げていく工夫も重要な課題となるでしょう。

  • PRMUアルゴリズムコンテスト結果発表

  • 2017 12/27

PRMUアルゴリズムコンテスト「この文字読めますか?〜くずし字認識にチャレンジ!〜」の結果が公表されました。受賞者が提案手法を説明したプレゼン資料や、応募作品のパフォーマンス比較などもあります。

入賞の方々、おめでとうございます。今後もコンテストを開催する計画がありますので、ぜひ次回もご参加下さい。

なお最優秀賞を獲得した東京農工大学中川研究室のチームは、情報処理学会 人文科学とコンピュータ研究会第116回研究会でも講演を行う予定です。

  • PRMUアルゴリズムコンテスト表彰

  • 2017 12/17

PRMUアルゴリズムコンテスト「この文字読めますか?〜くずし字認識にチャレンジ!〜」の表彰があり、東京農工大学のチームが最優秀賞を獲得しました。おめでとうございます!

提案手法の特徴など、詳しくは東京農工大学のプレスリリース古典籍のくずし字をAIが認識をご覧下さい。

また東京農工大学のチームは、情報処理学会 人文科学とコンピュータ研究会によるCH賞も同時受賞しました。CH賞の受賞記念の講演は第116回研究会で行います。

それに加えてCODHでは、今回のコンテスト参加者を対象とした勉強会や、来年度のコンテスト開催に向けた準備などを進めていきます。決まりましたらこのページで告知しますので、引き続きご注目下さい。

  • 「字形データセット」データ作成基本仕様を公開

  • 2017 12/05

国文学研究資料館が、「字形データセット」データ作成基本仕様を公開しました。この仕様書をカスタマイズしていろいろな機関が作成した字形データセットが、機械学習のためのオープンデータとして共有できれば理想です。

この仕様をベースにすることで、字形データセットの構築に関する業務委託がやりやすくなるだけでなく、このフォーマットでデータを構築しておけば、CODHの字形データセットと互換性を確保した上で新たな字形データセットが公開できます。これから翻刻プロジェクトを進める方は、ぜひこの仕様書を活用して、みんなで共有できるデータを構築して欲しいと思っています。

またオープンデータ化にご賛同いただけるようでしたら、ぜひ構築した字形データセットをCODHで公開させて下さい。CODHで公開することにより、賢い文字認識ソフトウェアの研究に貴重なデータがきちんと活用されやすくなります。

  • 日本古典籍字形データセットを活用した研究がHIP 2017でIAPR Best Paper Awardを受賞

  • 2017 11/15

The 4th International Workshop on Historical Document Imaging and Processing (HIP 2017)にて、日本古典籍字形データセットを活用した論文が、ワークショップの最優秀論文としてIAPR Best Paper Awardを受賞しました。

論文著者: Hung Tuan Nguyen, Nam Tuan Ly, Kha Cong Nguyen, Cuong Tuan Nguyen and Masaki Nakagawa

論文タイトル: Attempts to recognize anomalously deformed Kana in Japanese historical documents

受賞理由: We congratulate the authors for their outstanding work, which is breaking ground for the challenging problem of Kana recognition in historical Japanese documents, thoroughly investigates state-of-the-art methods at different recognition levels, and promotes the use of open data for historical document imaging and processing.

受賞理由にある「promotes the use of open data」は、国文学研究資料館と人文学オープンデータ共同利用センターが公開する日本古典籍字形データセットのことを指します。今回、まずオープンデータの公開に向けた協働がきっかけとなって国文学者が情報学分野の研究会に参加することになり、研究会での議論がPRMUアルゴリズムコンテストの開催につながり、このコンテストへの参加が受賞対象の研究を開始する動機となり、その成果となる研究が国際的な評価を受けて受賞し、そのことがデータセットの国際的な認知を高めるという、オープンデータ活用の理想的な連鎖が展開しました。「くずし字チャレンジ!」では、このようなオープンデータ活用による研究の活性化をさらに進めていきたいと考えています。