edomiとは?
「edomi」の由来
edomiという名前は、江戸の街を一望できることで有名だった江戸見坂という名所に由来します。edomiも、都市としての江戸/時代としての江戸に関する各種のデータを一望できる場所となるよう、江戸をみる/江戸をみせるデータが集まるデータポータルとして発展させていきます。
現代ユーザ視点のデータ構造化
歴史的な資料(史料)には多くの情報が書き込まれ現代に伝えられていますが、現代に生きる人々がその情報を取り出して活用するためには、いくつかの問題を解決する必要があります。例えば過去の資料の文字が読めないという問題に対して、我々はAIくずし字OCRの研究に取り組み、くずし字を現代の文字に変換する技術を開発しています。このように、歴史的な資料を読み解き利活用するには、情報技術が重要な役割を果たす時代がやってきています。
edomiが中心的に取り組む問題は「データ構造化」です。データ構造化とは、機械(コンピュータ)が読み、処理しやすい形式にデータを整える作業を指します。データの構造化は、機械による検索や計算(シミュレーション)を容易にするだけでなく、機械学習(AI)の適用によって人間がすべき作業を省力化、高速化する可能性を拡大します。そして、構造化された大規模データを機械が処理することで、新しい知識の発見を支援することにも期待が高まっています。
ここで課題となるのが、データ構造化の具体的な進め方です。目的ごと、分野ごとに様々な方法が考えられますし、データ作成者とデータ利用者では望ましいデータ構造化は異なります。そこでedomiでは、「現代ユーザ視点でのデータ構造化」に取り組みます。これは、歴史資料をありのまま読むためのデータ構造化ではなく、歴史資料を現代ユーザの利用につなげるためのデータ構造化を指します。現代ユーザの利用を考えるとき、重要となるのが「現代ユーザに馴染みのある形式でデータを提供すること」だと考えます。例えば、現代の地図上にデータを表示できること、現代の分類大系に沿ってデータが整理されていること、現代風のウェブサイトでデータを検索/閲覧できること、などです。つまり、過去のデータを現在の形式に合うように変換し再編集するためのワークフローを確立することが重要な課題です。
データ構造化のためのワークフローの確立
このようなデータ構造化のワークフローを確立するために、データ構造化のためのツールの研究開発や、標準的なアノテーション手順の確立などを進めています。例えば、我々が進める「キュレーション」という作業は、画像からその一部の領域を切り出し、メタデータを付与し、新たなコレクションを作成する方法です。この方法を用いて、特定の視点を反映したコンテンツに断片化することを「マイクロコンテンツ」と呼ぶこともあります。我々が開発を続けるIIIF Curation Platform (ICP)は、このようなキュレーションを構築し公開できるプラットフォームです。ICPを活用して構築したキュレーションの例には、江戸観光案内や江戸買物案内があります。
これに加えて「マークアップ」の活用も今後の課題です。テキストの一部の文字列にメタデータを付与することで、テキストの断片に意味を与えることができます。例えば場所や時間に対応する文字列にメタデータを付与すると、テキストを場所や時間などの「実体」と接続できます。テキスト上の出現(メンション)と実世界の実体(エンティティ)とを双方向に紐づけることで、テキストを実世界の文脈で扱えるようになります。
この方法を一般化すると、データ構造化とは、文書空間におけるデータ構造化と実体空間におけるデータ構造化の2つに分けて考えることができます。まず、文書空間におけるデータ構造化では、テキストや画像における出現(メンション)に意味を付与します。一方、実体空間におけるデータ構造化では、実世界における実体(エンティティ)やその関係(オントロジ)を体系化します。edomiの場合、実体として場所や時間、人物、イベントなどが代表的です。そして、文書空間のメンションから実体空間のエンティティへの接続(エンティティ・リンキング)、または実体空間のエンティティから文書空間のメンションへの接続(メンション・リンキング)などを進め、2つの空間を双方向に連結していくことで、構造化されたデータを双方の観点から分析できるようになります。
このような構造化データを用いて、「江戸観光案内」からedomiトラベルを、「江戸買物案内」からedomiショッピングを構築しました。まず、名所や商店の情報を一意に特定する識別子を定め、様々な資料に出現する記述や挿絵を紐づけます。これが文書空間におけるデータ構造化です。一方、名所や商店に出現する地名を地名識別子と紐づけることで、地名識別子のメタデータである位置情報などを引き出せるようにします。これにより、現代の地図に地名を表示し、そこから資料の一覧を検索 / 閲覧するという、現代ユーザに馴染みのある方法で江戸に関する情報を可視化します。このように、過去と現代を接続し、現代ユーザ視点で使えるデータポータルを構築することがedomiの目標です。
過去から未来へ
近年になって「過去のビッグデータ」に関する研究は大きく広がりつつあります。「歴史」という概念を拡大し、世界/人類スケールの歴史を考える「グローバルヒストリー」や、自然史や人類史などとの接続を試みる「ビッグヒストリー」などの研究が進んでいます。また過去のビッグデータから過去の世界を復元し、4Dのバーチャル世界の構築を目指す研究も進んでいます。例えば欧州タイムマシン(Time Machine Europe)計画は、欧州を中心とした4000年におよぶ歴史で生み出された文化遺産や過去の記録をデジタル化し、構造化することで、過去の世界を復元するだけでなく、未来にむけた知を得ることを目指しています。また同様の計画は、韓国・ソウルを対象とした「Hanyang Time Machine」など、世界各地で進みつつあります。
日本ではまだ同様の計画は始まっていませんが、edomiは「Edo Time Machine」に相当するプロジェクトと言えるでしょうか。江戸という都市、あるいは江戸という時代を対象とした「過去のビッグデータ」を構築するには、多くの専門家の協力が必要です。江戸をみせるデータを公開し、江戸をみる人々が活用する、それがさらなる研究につながるという好循環を作り出すための協力体制を作っていきたいと考えています。そして、過去の世界を知るための研究基盤を構築することにより、人文・社会科学における新しい研究方法を開拓することを目指しています。
edomiマップとは?
edomiマップは、現代の我々にとって馴染みが少ない江戸の様々な場所に関する情報を、現代の我々にとって馴染みのある地図上に表示するサービスです。このサービスで用いるデータは、以下の手順で構築しています。
まず過去の地名に関するデータベースを構築します。特に江戸の地名については江戸マップβ版が重要です。幕末に作成された江戸の地図である「江戸切絵図」の地名をデータベース化し、古地図と現代地図を位置合わせすることで、古地図上の位置と現代地図上の位置とを対応づけました。さらに、人間文化研究機構とH-GIS研究会が公開する地名辞書である歴史地名データを活用し、日本全国の歴史地名を追加しました。そして、これらの地名をGeoLODに登録して識別子(GeoLOD ID)を付与することで、地名から識別子を経由して緯度経度情報を取得し、地図に表示できるようにしました。
このように過去の地名に関するデータベースを構築したあと、江戸時代の様々な資料に出現する地名を上記の地名識別子とリンクすることで、地名に関する資料を横断的に閲覧できるようにしました。
地図の選択
地名をどの地図に表示するかも重要な問題です。地図は単に地名の位置を表示するだけでなく、他の地物の存在や相対的な位置関係の把握にも便利なビジュアル表現だからです。地図の選択としては、主に古地図と現代地図があります。
古地図を選択する場合は、過去の地理空間の中に地名を位置付けることができるため、歴史的な分析がしやすいという利点があります。一方、現代地図を選択する場合は、現代の地理空間との比較がしやすいため、現代の我々にとって理解しやすいという利点があります。そのため、edomiマップでは主に後者の方法を用いています。
これに対して、両者のハイブリッドを指向する地図もあります。その一つの例がれきちずです。れきちずは、過去の地理空間に関する情報をあたかも現代の地図のように閲覧できるサービスであり、いわば歴史地図と現代デザインのハイブリッドです。この方法は、地図自体を新たに作成する必要があるためコストが課題となりますが、コンテンツとユーザビリティの「いいとこどり」ができるため、今後の発展が期待できます。江戸マップ「れきちず」データセットなどの活動を通して、地図作成にも貢献していきたいと考えています。
メンバー
作成者
- 北本 朝展(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)
- 鈴木 親彦(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)
支援
本サイトの構築は、ROIS-DS人文学オープンデータ共同利用センター(CODH)の活動として進めると同時に、以下の研究費の支援も受けています。