概要
江戸時代の200年続いたベストセラーである「武鑑」を網羅的に解析し、江戸時代の大名家(藩)や幕府役人に関する人物・地理情報などの中核的情報プラットフォームを構築するプロジェクトです。ソフトウェア開発では一般的な「差分を読む」という差読(differential reading)技術を導入することで、多数のバージョンに対する網羅的な解析を試みます。
CODHと国文学研究資料館が協働して公開する日本古典籍データセットには、2017年12月現在381点の『武鑑』が含まれています。その中から、重点的に構造化する対象として寛政武鑑(1789)を選び、共時的にデータを網羅的に構造化します。
次に差読技術の適用対象として、江戸時代の大名家(藩)に関する情報を含む354点の武鑑を選び、経時的にデータを構造化します。そしてこれら2つのアプローチを組み合わせることで、網羅的な分析を拡大していく計画です。
ニュース
-
藩 経時データに37藩のデータを追加
- 2024 5/20
藩 経時データに37藩のデータを追加し、合計55藩となりました。また参勤交代に関する翻刻も、22藩について完了しました。
-
藩 経時データに7藩のデータを追加
- 2023 9/29
藩 経時データに、津山、川越、会津、飯野、宇和島、熊本、谷田部の7藩のデータを追加し、合計18藩となりました。またこれまで「大名家」という表現を用いていたページについて、「藩」の方が適切なページは表現の変更を行いました。
-
大名家経時データに7家のデータを追加
- 2023 4/19
大名家経時データに、佐賀、広島、福岡、彦根、仙台、松江、高松の7家のデータを追加し、合計11家となりました。
-
経時的差分翻刻による江戸200年参勤交代データセットの構築
- 2022 10/10
これまで「武鑑全集」では共時的データとして、寛政武鑑(1789)の一点を選び、大名家(藩)を横断する形で構造化データを整備してきました。その次の段階として、現在は経時的データの翻刻に挑戦しています。その最初の段階の成果として、藩 経時データを公開しました。
ここでは一つの藩に注目し、武鑑全体にわたって一つの項目を翻刻することで、江戸時代200年間の時系列的な変化を明らかにすることを目指します。これまで3つの藩について、参勤交代時期の変遷を追跡しました。さらにこの作業から得られた成果を基に、武鑑の目次も試作しました。このように共時的な翻刻と経時的な翻刻とを組み合わせることで、最終的な目標である「武鑑全体を対象とした構造化データの作成」に取り組んでいく計画です。
しかしこのような翻刻を従来の方法で進めると作業量が膨大になるため、作業をいかに効率的に変革できるかが鍵を握ることになります。そこで我々は、以前に提案した差読プラットフォームを活用したワークフローの効率化にこれまで取り組んできました。研究課題は新しい機能の開発にとどまらず、ユーザインタフェースが作業効率に与える影響への検討なども含みます。ユーザインタフェースの改善によって翻刻スピードがどのように速くなるかを実際に計測して比較することもあります。
こうした作業を進めていく中で、板木の連続性という新たな根拠を基に、書誌情報を修正する作業が必要であることを発見しました。書誌情報の出版年で並べ替えて翻刻してみると、藩の情報が時系列的な連続性と矛盾する変化を示す場合があることがわかりました。板木が連続して使われることを考えると、むしろ出版年という書誌情報の方に何らかの問題があると考える方が自然です。このように翻刻(テキスト)の比較検討と書誌情報(メタデータ)の比較検討を交互に繰り返すことで、より信頼性の高い経時的構造化データを構築するワークフローを作っていきたいと考えています。
このような経時的構造化データは、長期的にはCODHが構築を進める歴史ビッグデータの一部となり、データポータルedomiでも公開することになる予定です。
なおこのテーマについては、2022年11月11日に開催する第8回日本語の歴史的典籍国際研究集会でもご紹介する予定です。こちらにもご参加下さい。
-
献上品/拝領品/時献上一覧の公開
- 2021 10/21
献上品/拝領品/時献上 一覧を公開しました。これは、大名家から幕府に対して献上された品物、そして大名家が幕府から拝領した品物を、武鑑から抽出し翻刻し整理したデータです。これらのデータは、大名家ごとのページに詳細な構造化データとして掲載するだけでなく、一覧ページから品物ごとに検索し、その結果を大名家の属性一覧や地理的分布を示す地図として表示できるようにしました。
中でも献上品や時献上は興味深い項目です。大名から幕府に献上するわけですから、各地方の選りすぐりの名産品が選ばれるはずです。ゆえにこのデータベースは、江戸時代の各地における名産品のデータベースとしても使えます。ここに登場する品物の中には、現代に受け継がれているものや、形を変えて受け継がれているものがあります。「塩」が含まれる品物が多いのは、当時は塩が食品保存技術として広く使われていたことを反映しています。これらの品物は、現代ならば冷凍や冷蔵の技術を用いて、より新鮮に入手可能となっているかもしれません。江戸時代から現代に至る各地の文化、伝統、革新を、このデータベースから分析してみてはいかがでしょうか。
-
「差読プラットフォーム」の試験公開
- 2021 6/25
差読(differential reading)プラットフォームを試験公開しました。コンピュータビジョンとマッチング理論を組み合わせた版本対応付けアルゴリズムを考案し、画像比較ツールvdiff.jsを用いて異なる版の間の差分を可視化することで、江戸時代の200年続いたベストセラーである「武鑑」の網羅的な時系列分析を試みます。
「武鑑」は内容を頻繁に更新して出版され続けたことが知られていますが、どの部分がどの程度更新されていたのかという具体的な状況の調査は限定的でした。その原因は、単に作業量が膨大というだけでなく、そもそも異なる版を比較するという作業自体が、人間による目視では難しいことにありました。左右に2枚の画像を並べてその違いを目視で発見することは、間違い探しというゲームが存在するぐらい、人間にとって難しい作業なのです。しかし、2枚の画像をコンピュータ上でピッタリと重ね合わせて表示できさえすれば、これは誰でもできる簡単な作業となります。つまり、コンピュータの支援によって、人間にとって困難な作業が簡単な作業に反転するというのが、「差読(differential reading)」の基本的なアイデアです。このように2枚の画像を重ね合わせる特徴点抽出とマッチングの技術は、コンピュータビジョンの分野でここ15年ほどの間に大きな進歩を遂げました。この技術を活用して2枚の画像を重ね合わせることに成功したこと、これが第一の成果です。
第二の成果は、版本単位のマッチングです。画像単位のマッチングはコンピュータビジョン技術で解決できましたが、版本単位のマッチングは2点の本を対象としたページの対応づけの問題となります。この問題は、マッチング理論の世界でよく知られる「安定結婚問題(stable marriage problem)」と同じ構造の問題です。そこでこの問題に対する古典的な解法であるGale-Shapleyアルゴリズムを適用することで、版本間のページの最適な対応づけを計算できるようになりました。
第三の成果は、画像比較ツールvdiff.jsの開発です。画像単位のマッチング結果をウェブブラウザ上に表示するには、2枚の画像を重ね合わせる射影変換行列を適用できるJavaScriptベースの画像比較ツールが必要です。しかしこの目的に合ったよいツールが発見できなかったため、射影変換行列の外部指定および自動推定機能を備えた比較表示ビューア、および比較表示結果を修正する比較表示エディタを新たに開発しました。このツールでは、OpenCV.jsを活用することで、ウェブブラウザ上での高速表示を実現しています。
これらの成果を基に構築したのが「差読プラットフォーム」です。まず「基準とする武鑑」を選び、その後に「比較する武鑑」を選びます。そして、ページリストからページを選ぶと、版本単位のマッチング結果を表示することができます。このプラットフォームはまだ開発途上ですが、現段階では336点の「武鑑」を対象に、143,616枚の画像から、83,393,217点の特徴点を抽出しデータベース化しており、この計算には80コアのCPUで1日程度の時間を要しています。この前処理で射影変換行列を事前に計算しておくことで、利用者は事前に位置合わせされた状態で2枚の画像を比較できます。今後はこの計算パイプラインに改良を加えていくことで、研究に有用な版本比較プラットフォームの構築を進めていきます。
我々はこのような版本比較方式を「ブックバーコーディング法」と名付けています。ページごとのユニークな特徴点の配置を用いて画像や版本をマッチングするというアイデアは、生物種の同定にユニークな遺伝子配列を用いる「DNAバーコディング法」と似ています(参考:International Barcode of Life)。将来的には、版本ごとのユニークなコードをデータベース化することで、未知の版本の系統樹上の位置を同定できるようになるでしょう。本日試験公開した「差読プラットフォーム」は、その方向に進む第一歩となるものです。
参考文献
-
上屋敷地図その他の改良
- 2020 11/3
上屋敷地図を改良し、情報ウィンドウを開くと居城地と線を結ぶようにしました。これにより、上屋敷から見て居城地がどの方向にあるのか、参勤交代で用いる街道との位置関係はどうなのか、なども把握しやすくしています。また上屋敷や菩提寺に関する情報の修正/拡充を継続しており、さらに情報が充実しました。
-
一覧性の向上および江戸マップβ版へのリンク追加
- 2020 9/14
大名家地図と上屋敷地図に一覧表を追加するとともに、菩提寺リストを新たに公開しました。
また、上屋敷や菩提寺の一覧表から江戸マップβ版へのリンクを追加することで、情報整理の状況を把握しやすくしました。
さらに大名家ごとの個別ページについても、いくつかのリンクが正しく表示されていなかった問題を修正しました。
-
上屋敷・菩提寺に関する情報を追加し江戸マップβ版とリンクしました
- 2020 4/25
大名家の上屋敷と菩提寺に関する情報を追加しました。武鑑に掲載されている情報を翻刻するとともに、菩提寺に関しては駒澤学園(駒澤大学)が構築する寺院資料データベースとリンクすることで、現在の情報をたどれるようにしました。
また江戸マップβ版とリンクすることで、上屋敷と菩提寺の位置を江戸時代の地図でも位置を確認できるようにしました。江戸の都市空間と現在の東京の都市空間とを比較しながら、大名家の空間的な分布を調べることが可能です。
-
見て楽しむ大名家デザイン集「紋・道具」にデータを追加
- 2018 7/28
見て楽しむ大名家デザイン集「紋・道具」は2018年4月27日に公開しましたが、一部の紋・道具についてはデータ化が完了していませんでした。そこで残りの部分をデータ化することで、すべての紋・道具に対する一覧や色検索が可能となりました。
-
ニコニコ超会議「超みんなで翻刻してみた2018」で武鑑全集を紹介しました
- 2018 4/28
ニコニコ超会議「超みんなで翻刻してみた2018」で武鑑全集を紹介しました。ニコニコ生放送でも50分ほどお話しました。周囲はかなり賑やかでしたが、何人かの方々は足を止めて聞いて下さいました。
当日の様子は、新聞記事「ニコニコ超会議2018」サブカルカオスの中で科学技術は輝くか (ニュースイッチ Newswitch)でも紹介されています。
-
見て楽しむ大名家デザイン集「紋・道具」が登場
- 2018 4/27
「武鑑全集」に、見て楽しむ大名家デザイン集「紋・道具」が登場しました。『武鑑』は江戸時代の200年にわたって続いたベストセラーで、江戸時代の大名家や幕府役人に関する基本情報を網羅しています。その中には文字情報だけでなくビジュアルな情報も含まれます。例えば家紋のような紋や、行列道具のような道具など、いずれのデザインも大名家を象徴する役割を担ってきました。そして『武鑑』を携えた人々は、大名行列のデザインを本と見比べながら、どこの大名家の行列かを見分けるなどしていました。つまり『武鑑』のビジュアルな情報は、ガイドブックのような実用的な目的にも使われていたのです。
こうしたビジュアル情報を、どのように整理すればよいでしょうか。
我々はCODHで開発を進めるIIIF Curation Viewerを活用しました。IIIF Curation Viewerは、IIIF (International Image Interoperability Framework)という国際的に普及しつつある画像アクセス方法に基づき、画像を切り取って集めるという「Cut and Paste」を画期的に簡単化したソフトウェアです。我々は寛政武鑑(1789)を対象に、紋や道具などの領域を切り取り、集め、大名家ごとや種類ごとなど様々な切り口から、『武鑑』を再編集(キュレーション)しました。これは、国文学研究資料館が公開する日本古典籍オープンデータを、再編集して新たなプラットフォームに載せるという試みでもあります。
「紋・道具」を種類ごとに一覧していくのも面白いですが、今回は新しい切り口として色ごとに一覧を用意しました。この機能を実現するために、紋・道具に添えられているテキストを翻刻し、色や素材等の項目ごとに構造化した上で、色辞典に基づき色名をRGBに変換しました。『武鑑』は残念ながら一色刷なので、『武鑑』だけでカラーを完全に再現するのは難しいですが、一色がわかるだけでも紋・道具の実在感が高まってくるのではないでしょうか。この作業はまだ完了していないため、今後さらに充実させていきたいと考えています。
このような試みの先に、どんな世界を実現できるでしょうか。
まず、武鑑のデータをさらに使いやすい形式に変換したいと考えています。例えば紋などは、SVG等を用いてベクトルデータ化し、それをオープンデータとしてシェアできれば、その素材は様々な目的に再利用しやすくなります。また道具などは2次元ではなく3次元ですが、3Dモデルをオープンデータとしてシェアできれば、3Dプリンターを使って自分で制作することもできるでしょう。このようなトレース作業は、ネットを活用した参加型プロジェクト(みんなでトレース)として進められればいいなと思っています。
次に、武鑑のデータを組み合せた新たな世界の創造です。現在利用している寛政武鑑(1789)には264もの大名家のデータが揃っており、その多様性自体にコンテンツ素材のデータベースとしての価値があります。例えば264家のデータをより詳細に分析すれば、大名家デザインの特徴がわかってくるかもしれませんし、あるいは過去の大名行列を再現するといった歴史的景観の再現につながるかもしれません。一方、過去の世界にインスパイアされた発想を現代の世界観に移して表現すれば、ゲームやキャラクタ、コンテンツ等などの領域で様々な展開ができそうで、オープンデータを基盤とした創作の世界への夢も広がっていきます。
最後に、こうして新たに創造された世界を日本文化の見直しにつなげていくことが大きな課題です。江戸時代の日本は、それぞれの地域が一国を構え、曲がりなりにも独立した文化をはぐくんできた世界でした。これは東京のような大都市に活動が集中する現代の日本とは大きく異なります。かつてそこに存在した文化を、情報技術を用いて改めて掘り起こす活動を進めること。それが将来的には「文化的根拠に基づく地方創生」につながっていくかもしれません。
-
「武鑑全集」を公開しました
- 2017 11/9
江戸幕府の「大政奉還」から150周年の日を記念して、Edo+150プロジェクト、武鑑全集、くずし字チャレンジ!を公開しました。
協力
参考図書・ウェブサイト
- 国史大辞典,吉川弘文館, 1979年3月1日~1997年4月1日
- 日本歴史地名大系, 平凡社, 1979年9月20日~2004年10月20日
- 日本城郭体系
- 江戸三百藩 城と陣屋総覧 東国編・西国編, 学習研究社, 2006年
- 角川新版日本史辞典, KADOKAWA, 2013年第8版
- 編年江戸武鑑 文化武鑑1, 柏書房, 1981年
- 日本国語大辞典 第二版, 小学館, 2000〜2002年
- 日本の色辞典, 吉岡幸雄, 紫紅社, 2000年
- 武鑑出版と近世社会, 藤實久美子, 東洋書林, 1999年
- 和色大辞典(原色大辞典)
- 和の名前と色見本(和の色)