くずし字チャレンジ!

  • 人文科学とコンピュータ研究会でのパネルディスカッション・PRMU CH賞表彰

  • 2018 2/2

第116回 人文科学とコンピュータ研究会発表会で、PRMUアルゴリズムコンテストCH賞の表彰を行いました。東京農工大学中川研究室のチームを代表して、Tuan Nam Lyさんを研究会に招待し、くずし字認識コンテストに対する感想や、今後の見通しなどを中心にパネルで議論しました。

パネルディスカッションの前に、公立はこだて未来大学の寺沢憲吾氏による基調講演「歴史的文書画像に対する内容解析への取り組み」があり、くずし字や近代書籍に対する文字認識の難しさが紹介されました。特に、文字の切り出しと文字の認識は切り離せるのかという問題について、文字を認識しながら切り出さないと読めない例がいくつか紹介され、認識と切り出しを同時に行う新しいアプローチが必要であるという考えが示されました。同様の問題はくずし字にも当てはまります。機械は文字を切らないと読めない、しかし読めないと切れないという堂々巡りをどう解決するかは重要な問題です。

このような報告を踏まえ、最初にくずし字機械学習の課題について議論しました。今回のアルゴリズムコンテストの焦点は、3文字認識のレベル2、また未知文字数認識のレベル3が難しい問題でしたが、これの評価として1文字でも認識を間違えると不正解になるというのは、実際のニーズに比べて厳しすぎるのではないかという意見がありました。複数文字認識で1文字だけ間違っていても、そこだけ修正すれば良いのだから十分ではないか、などのように、人文学者によるニーズを踏まえた評価基準についても検討する必要がありそうです。

一方、最近ユニコードに取り入れられたくずし字の文字コードを使い、字母ごとに異なる文字として認識させた方がよいのではという意見も出ました。これに対しては、そもそもデータを作成するのが大変なこと、またディープラーニングは複数字母データを十分に吸収できる柔軟性を備えることなどの理由で、当面は現代仮名の文字コードに対する文字認識として進める方法で問題なかろうと考えています。

次にコンテストの課題設定について、次回のコンテストはどんな形式がよいと思うかについて議論しました。まず考えなければならないのは、評価の負担が重いという点です。実際にPRMUアルゴリズムコンテストでは、評価担当者が多くの時間を費して評価を行いました。同じことが次回のコンテストでも可能かと考えると、なかなか難しいのが実情です。PRMUアルゴリズムコンテストの大きな目的は大学院生を中心とした若い研究者の教育にあるため、単なるパフォーマンスの評価で順位が決まるわけではなく、レポートを提出してもらって手法の独創性なども評価します。一方、Kaggleなどの機械学習コンテストプラットフォームにはパフォーマンスを自動計測する仕組みが備わっているため、誰がトップなのかを決めるのはずっと楽になります。コンテストの評価の負担をいかに軽くするかは、何をコンテストの目標にするかも含めて、評価の問題から考えていく必要がありそうです。

また今回のコンテストの課題は仮名のみでしたが、次回は漢字を含めてはどうかという点についても議論しました。漢字を入れると文字数が増えて難易度は上がりますが、それだけ新しい研究課題も増えますので、難易度の高い問題も積極的に出題するのがよいのではないかという意見がありました。また現在の字形データセットは文字と文字画像のペアを使っていますが、みんなで翻刻のようにページ画像とページテキストのペアが大量に入手できる場合に、これを新たなコンテストの題材として使ってみるのも面白そうです。くずし字に関する問題点が山積していることを考えると、コンテストの出題に困ることは当面はなさそうです。

そして今回のコンテスト受賞者のナムさんがベトナム人であることを踏まえ、コンテストの国際化についても議論しました。ナムさんからは、データの説明が英語で読めるなら日本人でなくても問題に挑戦できる、とのコメントがありました。ディープラーニングのチューニングには言語的な知識はあまり関係ないので、データセットの整備さえきちんとできていれば、外国人にも積極的に呼び掛けたほうがよさそうです。ただしこの種の文字認識コンテストの「乱立」がコミュニティでも問題視されている面があるようで、しっかりした目的を示していくことが重要ではないかと感じました。

最後に長期的な展望として、コンテストで得られた知識を一つのソフトウェア基盤に統合できるかという問い掛けをしました。これに対して、まずAPIなどを整備して参加者が成果を接続しやすくすべきという意見と、オープンソースなどで参加者がコードを共有しているうちに自然に知識がまとまっていくのではないかという意見がありました。ソフトウェア基盤の整備については、OpenCVなどの優れた例はあるものの、大規模なコミュニティを運営するリソースがないと継続は難しいのも確かです。しかし、何らかの形で成果物を共有する場所は必要で、そこにCODHが果たせる役割もあると考えました。

パネルディスカッションの最後にナムさんが「今後もくずし字認識の研究を続けていきたい」と力強く宣言してパネルディスカッションは終了しました。実際のところ、ナムさんはコンテスト後も手法の改良を続け、すでにコンテスト応募時の性能を大幅に上回る性能を叩き出しています。来年度もコンテストの開催を期待しているとのことなので、CODHでもコンテスト開催に向けてこれから動きたいと考えています。またコンテストは、文字認識の成果を向上させるという目的だけにとどまらず、問題を明確にアピールすることで世間の注目を集めるという効果もあります。コンテストを継続的に盛り上げていく工夫も重要な課題となるでしょう。