「つくし」プロジェクト

くずし字資料の大規模テキスト化に基づき、全文検索技術の開発や大規模言語モデル（Large Language Model: LLM）への展開を目指します。

プロトタイプ

LLMの活用により、くずし字資料からどのような情報を引き出すことができるでしょうか？LLMの活用により開拓できる新たな世界を、様々なプロトタイプによる実験を通して探っていきます。

絵本江戸桜

『絵本江戸桜』に対して、AIを用いた自動テキスト化／翻訳実験を行いました。

自動テキスト化／翻訳実験の結果はAIで自動生成したものであり、人間による確認や修正は行っていませんのでご注意下さい。この実験は、以下のように各種のAIツールを組み合わせることで、現在の技術で何が可能かを試してみることを目的としています。

原本画像に「AIページ検出モデル」を適用し、見開き画像をページに自動分割
各ページ画像に「AIくずし字認識モデル（RURI）」を適用し、くずし字を自動テキスト化
テキスト化の結果を修正せずにOpenAIのGPT-4を適用し、歴史的日本語を現代日本語に翻訳
現代日本語を修正せずにOpenAIのGPT-3.5を適用し、現代日本語を英語に翻訳
IIIF Curation Playerを活用し、各種のAI出力を原本画像の横にまとめて表示

なお、AIツールのうち、LLMに関する部分（GPT-3.5/GPT-4）はOpenAI社が開発したものであり、LLM以外の部分はCODHの共同研究で開発したものです。したがって、現代日本語翻訳および英語翻訳の結果は、OpenAI社のサービスに依存します。

ROIS戦略的研究プロジェクト

タイトル

大規模言語モデルのための歴史的日本語テキストデータセットの開発

期間

2023年度：フィージビリティスタディ

メンバー

ROIS-DS人文学オープンデータ共同利用センター(CODH)
国文学研究資料館
国立歴史民俗博物館
国立情報学研究所
Sakana AI

概要

ChatGPTに代表される大規模言語モデル（Large Language Model: LLM）は、社会全体に大きな影響を及ぼしつつあります。しかし、すでに登場した多くのLLMは、日本語に対応していないか、あるいは対応していても英語より性能が低いことが知られています。これは、LLMの学習に日本語テキストが十分に取り込まれていないという問題に一つの原因があります。そこで本プロジェクトでは、歴史的日本語テキストのデータセットを構築し公開することで、日本文化ビッグデータがLLMにきちんと取り込まれるようになることを目指します。

これまで、歴史的日本語テキストのデータセットが十分な規模とならなかった一つの理由は、人手によるテキスト化に多くの労力と高い専門性が必要となる点にあります。くずし字をきちんと読める人口は日本人の0.01%とも言われており、人出に頼ったテキスト化では規模に限界があります。一方、機械によるテキスト化の方向についても、くずし字のためのOCRの精度が低いという問題がありました。しかし、CODHを中心とする研究グループが、AIくずし字OCRの技術にブレークスルーをもたらしたことで、機械による大規模テキスト化が現実的な構想となりつつあります。

日本は世界的に見ても歴史的資料が大量に残っている国です。潜在的な歴史的日本語テキストの量は決して少なくありません。もしOCRによって大規模なテキスト化が進展すれば、世界的にもユニークな大規模歴史的言語テキストデータセットを開発できる可能性があります。さらにその成果をオープンデータとして非独占的に公開すれば、世界中で進むLLMプロジェクトに歴史的日本語テキストが取り込まれ、様々なタスクの性能が向上する未来が期待できます。

こうした未来を目指し、本プロジェクトでは大規模な歴史的日本語テキストデータセットを開発し、オープンデータとして公開することを目標とします。

「つくし」とは

「つくし」は、『源氏物語』第14帖「みをつくし」にちなんだ名前です。「みを」アプリがくずし字資料の海を旅するツールとなる一方、「つくし」はくずし字資料を調べ「つくす」ためのツールとなることを目指しています。

ニュース

2023-07-03

ページを公開し、『絵本江戸桜』に関する実験を掲載しました。