くずし字翻刻(テキスト化)/翻訳

くずし字翻刻(テキスト化)

くずし字の「翻刻」とは、古典籍や古文書などに記されたくずし字を読み、現代日本語の文字コード(実質的にはUnicode)に変換する作業を指します。情報処理の用語としてはテキスト化と非常に近いですが、後述するように両者がカバーする意味は微妙に異なります。

人間による翻刻

翻刻はデジタル化以前から行われてきた作業です。以前であれば、古典籍や古文書の手書き文字を判読(解読)し、現代の文字に置き換えた原稿を作成し、活字を組んで印刷・出版していました。それに対して現在では、現代の文字コードを入力した電子テキストを作成する方向に変わってきています。

とはいえ、翻刻を行うためには、くずし字の読み方を知らなくてはいけません。現代の日本人できちんとくずし字が読める人は全人口の0.01%程度と推定されており、有名作品を除けば翻刻はあまり進んでいないのが現状です。そこで市民も参加できる翻刻システム「みんなで翻刻」などを用いて、くずし字の翻刻を進めながら、くずし字を読める人も増やしていくプロジェクトが進んでいます。

みんなで翻刻

AIによるテキスト化

一方人間ではなく機械が行うテキスト化にも注目が集まっています。特に機械学習(AI)に基づくくずし字OCRを用いて、多数のくずし字文書を自動的にテキスト化することへの期待が高まっています。CODHでは国文研と協力してくずし字データセットKMINSTデータセットを公開しており、これらをディープラーニング(深層学習)などで学習することにより、くずし字OCRに向けた研究開発が進むことが期待できます。

くずし字アプリ・サービス(検索/認識/解析/解読)

くずし字チャレンジ!

翻字(テキスト化)から校訂へ

翻字(テキスト化)とは、古典籍や古文書に書いてある通りに、現代の文字コードを割り当てることを目的とします。一方、翻字の後には校訂というプロセスがあります。これは単なる文字化を越えて、テキストの内容を可能な限り変えずに読みやすさを向上させる作業です。日本語は仮名と漢字という異なる文字種を使い分けられるため、文字の置換などにより読みやすさを向上させることができます。さらに原文にない句読点を補ったり、空白・改行などを追加したりすることも、読みやすさに影響を与える重要な作業です。

さらにテキストの誤りを修正するという課題もあります。古典籍や古文書には書き間違いがありますし、写本の場合は写し間違いもあります。さらにどう読むのか確定しづらい、微妙な字形の文字もあります。学問的な研究としては、そのような間違いがなぜ生じたかを追究することが研究テーマになりますが、情報を得るために読むだけの場合、明らかな間違いは修正されていた方が読みやすいでしょう。

しかしこれらは機械的な作業を越え、校訂者の考え方が反映する部分が生じます。ゆえに、誰がやっても同じ校訂結果になるとは限りません。狭義の翻刻である翻字の場合、得られるテキストは原文に忠実となりますが、広義の翻刻である校訂テキストは、原文と文字レベルで一致することはなくなります。

こうした検討を経た翻刻テキストを作成する作業となると、AIによる自動化は難しく、専門家が作業することが必要になります。そして今後の研究開発が進めば、AIが下読みし人間が修正するという翻刻ワークフローが一般化するかもしれません。専門家がAIによる翻刻支援を活用できれば、より多くの古典籍や古文書の翻刻が進む可能性も生まれます。また下読みレベルのテキストであっても、それを全文検索などに活用できれば、資料へのアクセス性を大きく向上させることも可能です。

翻刻から読解・史料批判へ

実は文字が読めるだけでは、古典籍や古文書の内容を理解することはできません。ことばの意味は文脈によって変わりますし、曖昧に書いてある場合、「行間を読む」ことが必要な場合など、ことばの意味を読み解くには様々な専門知識が必要です。さらに史料の場合、不注意で、あるいは意図的に、誤った情報が書いてあることがあります。対立する陣営が正反対の視点から記録することもあるでしょう。

このような複雑な状況に対応しながら、テキストの正確性を批判的に検討し、それが何を意味するかを読解するには、多くの専門知識が必要です。これはAIで自動化できるような領域ではなく、専門家が何年も研究を重ねてようやくたどりつけるような領域です。このことを踏まえると、AIは専門家の作業を自動化するものではなく、人間が資料を読むプロセスを支援するものと捉えるべきでしょう。機械と人間が協力しながら古典籍や古文書を読んでいくような世界を実現したいと考えています。

くずし字翻訳

一方、「くずし字翻訳」という言葉に決まった意味はありませんが、多くの人々がイメージするのは、古文から現代文への翻訳でしょう。翻刻は文字単位で古い文字から現代の文字に変換するのに対し、翻訳は語や文の意味を考慮して古文から現代文に変換することを意味します。

翻刻と翻訳の違いを見るには、江戸料理レシピデータセットがわかりやすいでしょう。例えばその中の一つである「黄身返し卵」を見てみると、下から上に向けて、原文(画像)→翻刻テキスト→現代語訳→レシピ構造化データへと、テキストの変換が順々に進んでいく様子を確認できます。

『万宝料理秘密箱 卵百珍』 | 江戸料理レシピデータセット

また、翻刻はコンピュータビジョン(文字認識)系の技術を用いるのに対し、翻訳は自然言語処理(機械翻訳)系の技術を用いるため、技術体系としても両者は大きく異なります。最近は両者ともディープラーニングの技法に収束しつつありますが、具体的なモデル化の技法や利用する周辺技術などの面では大きな違いがあります。また必要なデータセットも異なります。翻訳を実現するには変換対象となる2つの言語で書かれたテキストのペア(対訳コーパス)が必要となりますが、古文と現代文の対訳コーパスはまだ十分な量が揃っていません。

多くの日本人は、くずし字を読むよりも現代の文字で書かれた古文を読む方が簡単でしょうから、翻刻は文字レベルの読みやすさを改善できます。ただし翻刻はあくまで文字を読めるというだけであり、内容を読むためには、古文の文法を理解し、ことばの意味を知る必要があります。ゆえに読みやすさをさらに改善するために、機械翻訳を用いて古文を現代文に翻訳することへの期待が高まるわけです。このように、現代日本人が古典籍・古文書にアクセスしやすくなる状況を実現するためには、機械による翻刻と翻訳を多段に接続するという方法が一つの技術的な解決策になるでしょう。

ただし現在の技術レベルはまだ初歩的なものであり、そのような時代が実際に到来するのは、まだまだ先になりそうです。さらに読解や史料批判のように、単に文が読めるというその先に広がる(学問的な)世界に入っていくには、機械を使いこなすだけにはとどまらない、自分自身の専門的な勉強が必要になります。そのことは改めて強調しておきたいと思います。

参考文献

  1. 北本 朝展, カラーヌワット タリン, 宮崎 智, 山本 和明, "文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――", 電子情報通信学会誌, Vol. 102, No. 6, pp. 563-568, doi:10.20676/00000349, 2019年6月
  2. 北本 朝展, "データ駆動型人文学研究の発展とAIによるくずし字認識", 月刊J-LIS, Vol. 6, No. 8, pp. 36-39, doi:10.20676/00000352, 2019年11月
  3. Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning", 15th International Conference on Document Analysis and Recognition (ICDAR2019), pp. (in press), arXiv:1910.09433, 2019年9月
  4. Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "End-to-End Pre-Modern Japanese Character (Kuzushiji) Spotting with Deep Learning", 人文科学とコンピュータシンポジウム じんもんこん2018論文集, pp. 15-20, 2018年12月 (in English) [ Paper ]
  5. Tarin CLANUWAT, Mikel BOBER-IRIZAR, Asanobu KITAMOTO, Alex LAMB, Kazuaki YAMAMOTO, David HA, "Deep Learning for Classical Japanese Literature", NeurIPS 2018 Workshop on Machine Learning for Creativity and Design, arXiv:1812.01718, 2018年12月
  6. 北本 朝展, カラーヌワット タリン, Alex LAMB, Mikel BOBER-IRIZAR, "くずし字認識のためのKaggle機械学習コンペティションの経過と成果", 人文科学とコンピュータシンポジウム じんもんこん2019論文集, pp. (in press), 2019年12月
  7. Anh Duc Le, Tarin CLANUWAT, Asanobu KITAMOTO, "A human-inspired recognition system for pre-modern Japanese historical documents", IEEE Access, pp. 1-7, doi:10.1109/ACCESS.2019.2924449, 2019年6月
  8. 北本 朝展, 山本 和明, "人文学データのオープン化を開拓する超学際的データプラットフォームの構築", 人文科学とコンピュータシンポジウム じんもんこん2016論文集, pp. 117-124, 2016年12月 [ Paper ]
  9. 北本 朝展, "オープンサイエンスの動向と情報学分野へのインパクト", 電子情報通信学会技術報告, Vol. 116, No. 259, pp. 1-6, 2016年10月
  10. 日本文化とAIシンポジウム2019〜AIがくずし字を読む時代がやってきた〜
  11. 第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜