edomiとは?

「edomi」という名前の由来

edomiという名前は、江戸の街を一望できることで有名だった江戸見坂という名所に由来します。edomiも、都市としての江戸/時代としての江戸に関する各種のデータを一望できる場所となるよう、江戸をみる/江戸をみせるデータが集まるデータポータルとして発展させていきます。

現代ユーザ視点のデータ構造化

歴史的な資料(史料)には多くの情報が書き込まれ現代に伝えられていますが、現代に生きる人々がその情報を取り出して活用することは簡単ではありません。例えば文字が読めないという問題があります。これに対してCODHでは、AIくずし字OCRによって、くずし字を現代の文字に変換して読みやすくする技術を研究しています。このように、歴史的な資料を読み解き利活用するための情報技術の研究が、重要な課題となってきています。

edomiが取り組むのは「データ構造化」という課題です。データ構造化とは、機械(コンピュータ)が読み、処理しやすい形式にデータを整える作業を指します。データの構造化は、機械による検索や計算(シミュレーション)を容易にするだけでなく、機械学習(AI)の適用によって人間がすべき作業を省力化、高速化する可能性を拡大します。そして、構造化された大規模データを機械が処理することで、新しい知識の発見を支援することにも期待が高まっています。

ただしデータ構造化を具体的にどのように進めればいいかは大きな課題です。目的ごと、分野ごとに様々な方法が考えられますし、データ作成者とデータ利用者でも望ましいデータ構造化は異なります。edomiが取り組むのは「現代ユーザ視点でのデータ構造化」です。歴史資料をありのまま読むためのデータ構造化よりも、歴史資料を現代ユーザの利用につなげるためのデータ構造化に注力します。現代ユーザが求めるものとして、現代の緯度経度で地理情報が使える、現代の分類体系にデータが紐づいている、現代風のウェブサイトで情報が検索/閲覧できる、などが考えられます。これを実現するには、現代の基準に合わせて情報を変換し再編集する作業が必要になります。

より技術的には、文書空間におけるデータ構造化と実体空間におけるデータ構造化の接続が必要であると考えています。文書空間におけるデータ構造化では、主にテキストの読み解きと意味付けが目的となります。一方で実体空間におけるデータ構造化においては、実世界における実体(エンティティ)やその構造(オントロジ)に対して様々なメタデータを結び付けていくことが目的となります。実体としては場所や時間、人物、イベントなどが代表的です。こうした実体が文書ではどのように書かれているのか、そうしたエビデンスを集めていく、というのが実体空間におけるデータ構造化のイメージです。

例えば先行的に公開するトラベルショッピングでは、名所や商店の情報を一意に特定する識別子を定め、そこに様々な資料に出現する記述(挿絵)を紐づけていき、さらに識別子に対して緯度経度などの位置情報やその他のメタデータを付与していきました。この方法により現代ユーザは、江戸に関する情報を資料横断的に一望しながら検索/閲覧できるようになります。このように文書空間における構造化と実体空間における構造化の橋渡しを行うことがedomiの目的です。

データ構造化のためのワークフローの確立

このようなデータ構造化を行うためのワークフローを確立することも重要な課題です。具体的には、様々なデータ構造化のためのツールの研究開発や、標準的なアノテーション手順の確立などが課題となります。

すでに活用を始めているのが「キュレーション」です。これは、画像から一部を切り出し、独自のメタデータを付与してコレクションする方法です。元の画像から特定テーマに沿って画像を切り出し収集することで、新たな視点によるデータセットを構築することも可能で、これを「マイクロコンテンツ」と呼ぶこともあります。ROIS-DS人文学オープンデータ共同利用センターではIIIF Curation Platformの構築を続けており、様々なキュレーションをこのプラットフォーム上で構築しています。そのうちの2つである江戸観光案内江戸買物案内について、その構造を変換してedomiに掲載しました。

一方、今後の活用を考えているのが「マークアップ」です。これはテキストの一部の文字列にメタデータを付与しておくことで、後から必要とするテキスト断片を収集するために用いることができます。例えば場所や時間を表現する文字列にメタデータを付与しておくことで、テキストを実体と接続するための手がかりが得られます。将来的にはこの種のツールから得られたデータもedomiに掲載したいと考えています。

このように、元となる歴史資料に現代の人々が新たな情報をアノテーションし、それを収集/整理することで新たな価値を生み出していくというのが、データ構造化の目指すところです。特にedomiにおけるデータ構造化は、過去と現代を接続し、現代ユーザ視点で使えるデータポータルを構築することを目標としています。とはいえ、そうしたデータ構造化のためのデータ形式やAPIをどう定めるかは未解決の問題でもあります。

江戸という都市、江戸という時代に関する多種多様なデータを構造化するには、多くの専門家の協力が必要です。また人文学オープンデータの流れの中にedomiにおけるデータ公開をきちんと位置付けることも重要な課題です。江戸をみせるデータを公開し、江戸をみる人々が活用する、それがさらなる研究につながるという好循環を作り出すための協力体制を作っていきたいと考えています。


メンバー

作成者

  • 北本 朝展(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)
  • 鈴木 親彦(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)

協力者


支援

本サイトの構築は、ROIS-DS人文学オープンデータ共同利用センター(CODH)の活動として進めると同時に、以下の研究費の支援も受けています。