AI自動テキスト化/翻訳実験

LLMの活用により、くずし字資料からどのような情報を引き出すことができるでしょうか?LLMの活用により開拓できる新たな世界を、様々なプロトタイプによる実験を通して探っていきます。

絵本江戸桜

絵本江戸桜』に対して、AIを用いた自動テキスト化/翻訳実験を行いました。

『絵本江戸桜』AI自動テキスト化/翻訳実験

自動テキスト化/翻訳実験の結果はAIで自動生成したものであり、人間による確認や修正は行っていませんのでご注意下さい。この実験は、以下のように各種のAIツールを組み合わせることで、現在の技術で何が可能かを試してみることを目的としています。

  1. 原本画像に「AIページ検出モデル」を適用し、見開き画像をページに自動分割
  2. 各ページ画像に「AIくずし字認識モデル(RURI)」を適用し、くずし字を自動テキスト化
  3. テキスト化の結果を修正せずにOpenAIのGPT-4を適用し、歴史的日本語を現代日本語に翻訳
  4. 現代日本語を修正せずにOpenAIのGPT-3.5を適用し、現代日本語を英語に翻訳
  5. IIIF Curation Playerを活用し、各種のAI出力を原本画像の横にまとめて表示

なお、AIツールのうち、LLMに関する部分(GPT-3.5/GPT-4)はOpenAI社が開発したものであり、LLM以外の部分はCODHの共同研究で開発したものです。したがって、現代日本語翻訳および英語翻訳の結果は、OpenAI社のサービスに依存します。