くずし字翻刻(テキスト化)/古文・漢文→現代文翻訳

くずし字翻刻(テキスト化)

くずし字の「翻刻」とは、古典籍や古文書などに記されたくずし字を読み、現代日本語の文字コード(実質的にはUnicode)に変換する作業を指します。情報処理の用語としてはテキスト化と非常に近いですが、後述するように両者がカバーする意味は微妙に異なります。

人間による翻刻

翻刻はデジタル化以前から行われてきた作業です。以前であれば、古典籍や古文書の手書き文字を判読(解読)し、現代の文字に置き換えた原稿を作成し、活字を組んで印刷・出版していました。それに対して現在では、現代の文字コードを入力した電子テキストを作成する方向に変わってきています。

とはいえ、翻刻を行うためには、くずし字の読み方を知らなくてはいけません。現代の日本人できちんとくずし字が読める人は全人口の0.01%程度と推定されており、有名作品を除けば翻刻はあまり進んでいないのが現状です。そこで市民も参加できる翻刻システム「みんなで翻刻」などを用いて、くずし字の翻刻を進めながら、くずし字を読める人も増やしていくプロジェクトが進んでいます。

みんなで翻刻

AIによるテキスト化

一方人間ではなく機械が行うテキスト化にも注目が集まっています。特に機械学習(AI)に基づくくずし字OCRを用いたくずし字資料の自動テキスト化が進みつつあります。CODHでは国文研と協力してくずし字データセットKMINSTデータセットを公開しました。そして、これらのデータセットにディープラーニング(深層学習)を適用することで、くずし字OCRの研究開発を進めました。その成果として、くずし字資料をカメラで写真撮影し、認識ボタンを押すだけで、AIがくずし字を現代文字に変換してくれる、スマホアプリ「みを」などを公開しています。

くずし字アプリ・サービス(検索/認識/解析/解読)

くずし字チャレンジ!

みを(miwo):AIくずし字認識アプリ

翻字(テキスト化)から校訂へ

翻字(テキスト化)とは、古典籍や古文書に書いてある通りに、現代の文字コードを割り当てることを目的とします。一方、翻字の後には校訂というプロセスがあります。これは単なる文字化を越えて、テキストの内容を可能な限り変えずに読みやすさを向上させる作業です。日本語は仮名と漢字という異なる文字種を使い分けられるため、文字の置換などにより読みやすさを向上させることができます。さらに原文にない句読点を補ったり、空白・改行などを追加したりすることも、読みやすさに影響を与える重要な作業です。

さらにテキストの誤りを修正するという課題もあります。古典籍や古文書には書き間違いがありますし、写本の場合は写し間違いもあります。さらにどう読むのか確定しづらい、微妙な字形の文字もあります。学問的な研究としては、そのような間違いがなぜ生じたかを追究することが研究テーマになりますが、情報を得るために読むだけの場合、明らかな間違いは修正されていた方が読みやすいでしょう。

しかしこれらは機械的な作業を越え、校訂者の考え方が反映する部分が生じます。ゆえに、誰がやっても同じ校訂結果になるとは限りません。狭義の翻刻である翻字の場合、得られるテキストは原文に忠実となりますが、広義の翻刻である校訂テキストは、原文と文字レベルで一致することはなくなります。

こうした検討を経た翻刻テキストを作成する作業となると、AIによる自動化は難しく、専門家が作業することが必要になります。そして今後の研究開発が進めば、AIが下読みし人間が修正するという翻刻ワークフローが一般化するかもしれません。専門家がAIによる翻刻支援を活用できれば、より多くの古典籍や古文書の翻刻が進む可能性も生まれます。また下読みレベルのテキストであっても、それを全文検索などに活用できれば、資料へのアクセス性を大きく向上させることも可能です。

翻刻から読解・史料批判へ

実は文字が読めるだけでは、古典籍や古文書の内容を理解することはできません。ことばの意味は文脈によって変わりますし、曖昧に書いてある場合、「行間を読む」ことが必要な場合など、ことばの意味を読み解くには様々な専門知識が必要です。さらに史料の場合、不注意で、あるいは意図的に、誤った情報が書いてあることがあります。対立する陣営が正反対の視点から記録することもあるでしょう。

このような複雑な状況に対応しながら、テキストの正確性を批判的に検討し、それが何を意味するかを読解するには、多くの専門知識が必要です。これはAIで自動化できるような領域ではなく、専門家が何年も研究を重ねてようやくたどりつけるような領域です。このことを踏まえると、AIは専門家の作業を自動化するものではなく、人間が資料を読むプロセスを支援するものと捉えるべきでしょう。機械と人間が協力しながら古典籍や古文書を読んでいくような世界を実現したいと考えています。

くずし字翻訳(古文・漢文→現代文翻訳)

くずし字OCRの登場により、「これで古典籍や古文書がスラスラ読める」と早合点した人々の中には、「でも翻刻されたテキストは古文や漢文ですよ」という現実に落胆する方がおられるかもしれません。たとえ翻刻ができても、古文や漢文から現代文への翻訳ができないと、読める人はそれほど増えないかもしれません。しかし、翻刻が古い文字から現代の文字への文字単位のほぼ機械的な変換なのに対し、翻訳は古文や漢文から現代文への語や文単位の意味を考慮した変換となりますので、後者の方が正解を定義することがより難しくなります。

翻刻と翻訳の違いを見るには、江戸料理レシピデータセットがわかりやすいでしょう。例えばその中の一つである「黄身返し卵」を見てみると、下から上に向けて、原文(画像)→翻刻テキスト→現代語訳→レシピ構造化データへと、テキストの変換が順々に進んでいく様子を確認できます。

『万宝料理秘密箱 卵百珍』 | 江戸料理レシピデータセット

また、翻刻はコンピュータビジョン(文字認識)系の技術を用いるのに対し、翻訳は自然言語処理(機械翻訳)系の技術を用いるため、技術体系としても両者は大きく異なります。最近は両者ともディープラーニングの技法に収束しつつありますが、具体的なモデル化の技法や利用する周辺技術などの面では大きな違いがあります。また必要なデータセットも異なります。翻訳を実現するには変換対象となる2つの言語で書かれたテキストのペア(対訳コーパス)が必要となりますが、古文や漢文と現代文の対訳コーパスはまだ十分な量が揃っていません。

多くの日本人は、くずし字を読むよりも現代の文字で書かれた古文や漢文を読む方が簡単でしょうから、翻刻は文字レベルの読みやすさを改善できます。ただし翻刻はあくまで文字を読めるというだけであり、内容を読むためには、古文や漢文の文法を理解し、ことばの意味を知る必要があります。ゆえに読みやすさをさらに改善するために、機械翻訳を用いて古文や漢文を現代文に翻訳することへの期待が高まるわけです。このように、現代日本人が古典籍・古文書にアクセスしやすくなる状況を実現するためには、機械による翻刻と翻訳を多段に接続するという方法が一つの技術的な解決策になるでしょう。さらに読解や史料批判のように、単に文が読めるというその先に広がる(学問的な)世界に入っていくには、機械を使いこなすだけにはとどまらない、自分自身の専門的な勉強が必要になります。そのことは改めて強調しておきたいと思います。

なお2022年以降は、ChatGPTなどの大規模言語モデル(LLM)の発展により、古文から現代文への翻訳についても、ある程度の精度で可能な場合があることがわかってきました。この技術の進展については「つくし」プロジェクトのページをご覧下さい。

「つくし」プロジェクト

参考文献

KuroNetのページをご覧下さい。