「つくし」プロジェクトとは?

ROIS戦略的研究プロジェクト

タイトル

大規模言語モデルのための歴史的日本語テキストデータセットの開発

期間

2023年度:フィージビリティスタディ
2024年度:本研究

メンバー

ROIS-DS人文学オープンデータ共同利用センター(CODH)
国文学研究資料館
国立歴史民俗博物館
国立情報学研究所
Sakana AI

概要

ChatGPTに代表される大規模言語モデル(Large Language Model: LLM)は、社会全体に大きな影響を及ぼしつつあります。しかし、すでに登場した多くのLLMは、日本語に対応していないか、あるいは対応していても英語より性能が低いことが知られています。これは、LLMの学習に日本語テキストが十分に取り込まれていないという問題に一つの原因があります。そこで本プロジェクトでは、歴史的日本語テキストのデータセットを構築し公開することで、日本文化ビッグデータがLLMにきちんと取り込まれるようになることを目指します。

これまで、歴史的日本語テキストのデータセットが十分な規模とならなかった一つの理由は、人手によるテキスト化に多くの労力と高い専門性が必要となる点にあります。くずし字をきちんと読める人口は日本人の0.01%とも言われており、人出に頼ったテキスト化では規模に限界があります。一方、機械によるテキスト化の方向についても、くずし字のためのOCRの精度が低いという問題がありました。しかし、CODHを中心とする研究グループが、AIくずし字OCRの技術にブレークスルーをもたらしたことで、機械による大規模テキスト化が現実的な構想となりつつあります。

日本は世界的に見ても歴史的資料が大量に残っている国です。潜在的な歴史的日本語テキストの量は決して少なくありません。もしOCRによって大規模なテキスト化が進展すれば、世界的にもユニークな大規模歴史的言語テキストデータセットを開発できる可能性があります。さらにその成果をオープンデータとして非独占的に公開すれば、世界中で進むLLMプロジェクトに歴史的日本語テキストが取り込まれ、様々なタスクの性能が向上する未来が期待できます。

こうした未来を目指し、本プロジェクトでは大規模な歴史的日本語テキストデータセットを開発し、オープンデータとして公開することを目標とします。

国文研プロジェクト型共同研究

タイトル

日本の古典文化を融合したマルチモーダル基盤モデルのためのデータインフラストラクチャの構築

期間

2024年度

概要

日本各地で大切に保存されてきた多数の古典籍、古文書、文化遺産からは、日本の古典文化に関する多様なデータを取り出すことができる。これを現代のデータインフラストラクチャである「マルチモーダル基盤モデル(LMM)」に融合させるには、3つの研究課題、すなわちLMM学習データセットの構築(データ)、LMMモデルの学習(モデル)、LMMモデルを活用するアプリの構築(アプリ)の連携が必要である。そこで本研究は、データ、モデル、アプリの各研究課題について、短期的および長期的な発展の方向性を見通しつつ、人文学者や市民による利用に適したデータインフラストラクチャの構築を目指す。

「つくし」とは

「つくし」は、『源氏物語』第14帖「みをつくし」にちなんだ名前です。「みを」アプリがくずし字資料の海を旅するツールとなる一方、「つくし」はくずし字資料を調べ「つくす」ためのツールとなることを目指しています。