くずし字チャレンジ!

くずし字チャレンジ!
Edo+150 Projects CODH

江戸時代の古典籍はくずし字で書かれており、現代の日本人でそれをすらすら読める人は限られています。では人工知能(AI)を学習させれば、くずし字を読めるようになるのでしょうか?くずし字の大規模な学習データセット「日本古典籍字形データセット」を広く世界に公開し、みんなの力で「くずし字×AI」というグランドチャレンジに挑みます。

より詳しく

  • 「字形データセット」データ作成基本仕様を公開

  • 2017 12/05

国文学研究資料館が、「字形データセット」データ作成基本仕様を公開しました。この仕様書をカスタマイズしていろいろな機関が作成した字形データセットが、機械学習のためのオープンデータとして共有できれば理想です。

この仕様をベースにすることで、字形データセット構築に関する業務委託がやりやすくなるだけでなく、このフォーマットでデータを構築しておけば、CODHの字形データセットと互換性を確保した上で新たな字形データセットが公開できます。これから翻刻プロジェクトを進める方は、ぜひこの仕様書を活用して、みんなで共有できるデータを構築して欲しいと思っています。

またオープンデータ化にご賛同いただけるようでしたら、ぜひ構築した字形データセットをCODHで公開させて下さい。CODHで公開することにより、賢い文字認識ソフトウェアの研究に貴重なデータがきちんと活用されやすくなります。

More
  • 日本古典籍字形データセットを活用した研究がHIP 2017でIAPR Best Paper Awardを受賞

  • 2017 11/15

The 4th International Workshop on Historical Document Imaging and Processing (HIP 2017)にて、日本古典籍字形データセットを活用した論文が、ワークショップの最優秀論文としてIAPR Best Paper Awardを受賞しました。

論文著者: Hung Tuan Nguyen, Nam Tuan Ly, Kha Cong Nguyen, Cuong Tuan Nguyen and Masaki Nakagawa

論文タイトル: Attempts to recognize anomalously deformed Kana in Japanese historical documents

受賞理由: We congratulate the authors for their outstanding work, which is breaking ground for the challenging problem of Kana recognition in historical Japanese documents, thoroughly investigates state-of-the-art methods at different recognition levels, and promotes the use of open data for historical document imaging and processing.

受賞理由にある「promotes the use of open data」は、国文学研究資料館と人文学オープンデータ共同利用センターが公開する日本古典籍字形データセットのことを指します。今回、まずオープンデータの公開に向けた協働がきっかけとなって国文学者が情報学分野の研究会に参加することになり、研究会での議論がPRMUアルゴリズムコンテストの開催につながり、このコンテストへの参加が受賞対象の研究を開始する動機となり、その成果となる研究が国際的な評価を受けて受賞し、そのことがデータセットの国際的な認知を高めるという、オープンデータ活用の理想的な連鎖が展開しました。「くずし字チャレンジ!」では、このようなオープンデータ活用による研究の活性化をさらに進めていきたいと考えています。

More
  • HIP 2017 The 4th International Workshop on Historical Document Imaging and Processingにて「日本古典籍字形データセット」を用いた研究発表

  • 2017 11/10

The 4th International Workshop on Historical Document Imaging and Processingは、歴史的な文書の画像処理や解析などをテーマとする国際ワークショップですが、ここで「日本古典籍字形データセット」を活用した文字認識等の研究発表が行われます。

More
  • 第21回 PRMUアルゴリズムコンテスト この文字読めますか? 〜くずし字認識にチャレンジ!〜 が締め切りとなりました

  • 2017 8/31

PRMU研究会はパターン認識・メディア理解分野の若手研究者・学生の育成および研究会活動の活性化を目的として、毎年アルゴリズムコンテストを開催しています。今年度は第21回となります。アルゴリズムコンテストでは具体的なパターン認識分野の課題を提示し、課題解決の過程を通じて参加者に研究の面白さを体験してもらうことを目指しています。

More
  • 日本古典籍字形データセットの第2弾を公開しました

  • 2017 6/2

日本古典籍字形データセットの第2弾を公開し、文字種が1,521→3,999、文字数が86,176→403,242へと、さらに充実しました。今年度中には第3弾も公開する計画ですので、ご期待下さい。

More
  • 第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜

  • 2017 2/10

過去の日本文化を知るには過去の文字が読めなくてはなりませんが、例えば江戸時代の本がすらすら読めるのは日本人でも少ないため、過去の日本文化が知られることなく埋もれているのが現実です。そうした現実を変えるには、古典籍をデジタル化して誰でもアクセスできるオープンデータとして公開するだけでなく、書籍に何が書かれて/描かれているのかという内容も検索/活用できる「ディープアクセス」技術の研究も進めていく必要があります。

そこで今回のセミナーでは、くずし字を読むというチャレンジに対して、機械によるアプローチと人間によるアプローチを用いた研究を紹介します。まず機械によるアプローチとは、パターン認識や機械学習などのいわゆる「人工知能」を用いて、機械を賢くして文字認識を自動化しようというアプローチです。一方人間によるアプローチとは、市民参加型翻刻やモバイルアプリなどを用いて、人間を賢くして多数の人間が協力しながら文字を読むというアプローチです。これら二つのアプローチは、どちらか一つを選択せねばならないものではありません。くずし字チャレンジの未来は、人間と機械がライバルとしてではなくチームを組んで、お互いに協力しながらくずし字を読み進めていくものになることでしょう。

今回のセミナーは、関連する研究テーマに取り組む研究者の方々をお招きして、これまでの研究の紹介と今後の展望について語っていただきます。これを機会に、くずし字へのチャレンジについて考えてみませんか?

More
  • 江戸時代の文字の字形データセットを国文研との協働で構築/機械と人間の学習のためのオープンデータとして公開

  • 2016 11/17

大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII、所長:喜連川 優、東京都千代田区)は大学共同利用機関法人 人間文化研究機構 国文学研究資料館(国文研)と共同で、江戸時代の古典籍に書かれたくずし字の1文字ずつの字形画像データや文字座標データなどからなる「日本古典籍字形データセット」を制作し、11月17日から公開しました。本字形データセットは機械学習のための学習データセットとしての利用が期待されるとともに、人間のくずし字学習など教育目的への利用も考えられます。「日本古典籍字形データセット」は二次利用を歓迎するオープンデータとして、情報・システム研究機構の「人文学オープンデータ共同利用センター」準備室のサイトから提供します。

今回公開するのは、江戸初期・寛文年間の料理本『料理秘伝抄』などの古典籍8点の画像データから1文字ずつ切り取ったくずし字1,521文字種の異なる字形のデータ計8万6176件です。字形のもとになった古典籍は、いずれもNIIと国文研が共同で11月10日から公開を始めた「日本古典籍データセット」に収録されています。1件の字形データは、以下の4種類のデータがセットになっています。提供する字形データは今後拡大し、今年度中に合計約40万件を公開する予定です。

原本補正画像データ 翻刻作業を容易にするため、「日本古典籍データセット」で公開している画像に対して、見開き画像を分離し、回転させて正立させる前処理を加えた画像。

文字座標データ 原本補正画像データ上で文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDのデータ。

字形画像データ 文字種ごとに字形を閲覧しやすくするため、「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像。

作業報告文書 翻刻作業で読めなかった文字に関する情報やその他の注意事項を記載した文書。

More
  • 電子情報通信学会 パターン認識・メディア理解研究会(PRMU)でくずし字認識に関連するセッションを開催

  • 2016 10/20

電子情報通信学会 パターン認識・メディア理解研究会(PRMU)のテーマセッション「オープンサイエンス~研究資源と研究体制のオープン化~」にて、くずし字認識に関連する2件の招待講演と1件の一般発表がありました。

招待講演: 日本語の歴史的典籍のデジタル化における国文学研究資料館の戦略 山本和明(国文学研究資料館)

招待講演: くずし字・古文書の自動解読にむけて 寺沢憲吾(公立はこだて未来大)

一般講演: ディープラーニングによる日本語の歴史的典籍におけるくずし字の認識およびWWWアプリケーション開発の試み 早坂太一・大野 亙・加藤弓枝(豊田高専)・山本和明(国文学研究資料館)

また情報学分野の研究会で「くずし字」という人文学のテーマを取り上げる背景として、以下の講演でオープンサイエンスという概念を紹介しました。

一般講演: オープンサイエンスの動向と情報学分野へのインパクト 北本朝展(NII)

More