現代のビッグデータと同様に過去のビッグデータを分析し、過去の環境や社会の状況を復元するには、歴史の「機械可読化」に向けたデータ構造化のための情報基盤を構築する必要がある。そこで文理融合型の共同研究をベースに構造化された歴史情報を分野横断的に蓄積し、人文学・理学・工学をまたいだ歴史の再構築を目指す。
歴史ビッグデータへの期待
歴史を探るための方法として、過去の記録を歴史学者が読み解き、複数の記録を突き合せることで、確からしい解釈を積み上げていく方法がこれまで用いられてきました。この方法が、今後も歴史学の基本的な方法であり続けることは変わりませんが、そこに「機械」を導入することで歴史研究がどのように変わるのか、それを探るのが「歴史ビッグデータ」の目標です。
例えば「ディジタル・シルクロード」プロジェクトでは、「デジタル史料批判(digitally-enabled critique)」という手法を提案しました。これは古地図や古写真などの空間画像史料の信頼性を評価する(史料批判する)には、人間が史料を見比べるだけでは十分でなく、機械の助けを借りて定量的に見比べる必要があることを示しました。複数の記録を突き合せるという基本的な作業であっても、「人間が頑張る」だけでは不十分な場合があるのです。
また歴史学と他分野の融合領域では、定量的な分析の重要性がより高まります。例えば古気候研究では、過去の日記や文書に記された記録を時空間的に集約し、統計的な計算やシミュレーションを用いて過去の気候を再現します。また古地震研究では同様の方法により、震源やマグニチュード、各地の震度や津波などを推定します。こうした歴史的な分析の重要性は、我々も東日本大震災の際に痛感したところです。
このような定量的な歴史記録は、人口や経済の研究としても重要であり、個別の分野において蓄積が進んでいます。また戸籍や行政文書、人事記録など、そのままでは定量的なデータとして使えないとしても、何らかの変換を行うことで定量的な性質を引き出せるデータもあります。こうしたデータを分野横断的に利用できれば、気候と人口の関係など、複合的な問題にも答えることができるでしょう。
これと同じことが、まさに現代のビッグデータに対して日常的に行われています。複数の情報源から得られた定量的/構造化データを統合して分析することで、人々の行動を分析したり未来を予測したりしようとする。この技術を過去に持ち込んで、分析対象を「タイムシフト」したらどうなるだろうか、というのが歴史ビッグデータの基本的なアイデアです。つまり、単に過去の大規模データを分析するというにとどまらず、現在と過去との連続性を意識しながら両者をシームレスに分析することに関心があります。
もちろん現代と過去ではデータの状態が全く異なりますので、現代向けのアルゴリズムがそのまま動作するわけではありません。構造のないデータをどのように構造化して信頼性を高めればよいのか、アルゴリズムのロバスト性をどのように高めればよいのか、「歴史ビッグデータ」の研究課題はたくさんあります。このような課題を解決しながら、デジタル・ヒストリーの新しい方法論を開拓するとともに、歴史の新たな側面を明らかにすること、それが歴史ビッグデータプロジェクトの目標です。
第6回CODHセミナー 歴史ビッグデータ〜過去の記録の統合解析に向けた古文書データ化の挑戦〜
データサイエンスでここが変わる。02 データを発掘し、新たな歴史を記述する。
データ構造化ワークフロー
歴史データをコンピュータで分析するには、機械可読性の高い構造化データを作る必要があります。しかし、くずし字で書かれたアナログ資料を構造化データに変換するには、多くの作業が必要になります。こうした作業を円滑に進めるためのワークフローを確立するために、ワークフローの各段階を構成するツールを構築するだけでなく、それらを相互運用可能なデータ形式またはAPIで接続することで、データ構造化を進めていく計画です。現在のところ、以下のツールが利用可能です。
デジタル資料の共有
非構造化テキストの生成(くずし字翻刻)
半構造化データの生成
構造化データの生成
エンティティリンキング
エンティティリソース集
空間情報
- GeoLOD - 地名情報を集約する地名情報処理基盤
- 歴史的行政区域データセットβ版
- 国勢調査町丁・字等別境界データセット
- 『日本歴史地名大系』地名項目データセット
- 『日本歴史地名大系』行政地名変遷データセット
- れきちめ:日本歴史地名統合データベース
- 江戸マップβ版
- 歴史地名マップ
- 歴史GIS
時間情報
イベント(できごと)情報
人物・組織情報
社会・経済情報
利用するデータ
歴史ビッグデータでは、文字史料だけでなくビジュアルな史料(非文字史料)として、古地図や古写真なども活用します。また、非文字史料に対する史料批判には、様々なデジタル技術を活用する余地があります。こうした側面も研究していく計画です。
歴史ビッグデータの分類
歴史ビッグデータを構造化する際のデータスキーマ(形式)は対象によって異なりますが、分野横断的な分析では共通部分が大きいことが望ましいため、データスキーマの汎用性と個別性との両立が重要な課題です。それに加えて、時空間や記録者、行為者などのエンティティに関しても、記述方法が統一できればデータの汎用性は大きく向上します。こうした問題意識に基づき、歴史ビッグデータではデータスキーマを大まかに3分類することを考えています。
1. 歴史的状況記録
状況記録とは世界の状況に関する記録です。人間の感覚器を経由して世界を観察した結果を文字として記録します。例えば天気は、人間が空の状況を視覚的に判断して記録したものです。地震の場合はもう少し複雑で、最初に地震の揺れを聴覚または触覚で感じ、次に視覚で感じるという順番になることが多いでしょう。そして少し時間が経過してから、地震の被害状況などを視覚的に観察して記録することになります。
2. 歴史的行動記録
行動記録とは人間の行動に関する記録です。人間の行動によって発生した変化を文字として記録します。例えば人間がある場所から別の場所に移動した、店で何かを買ったり食べたりした、観光地に旅した、などの行動に関する記録などが相当します。
3. 歴史的状態記録
状態記録とは、人間やモノの状態に関する記録です。人間やモノに関する、ある時点の属性や、ある時点からある時点にかけての属性の変化などを文字として記録します。家族の状態を表す戸籍、市場の取引を表す価格、モノの位置を表す輸送に関する記録などが相当します。
諸外国の動向
欧州ではTime Machine Europe(欧州タイムマシン研究計画)という巨大プロジェクトが600機関以上の参加を得て立ち上がりつつあり、イタリアのベニスやオランダのアムステルダムなど、都市の歴史のビッグデータを集めて時空間を自由に行き来する「タイムマシン」の構築が始まっています。これらのプロジェクトは、過去の行政資料や地図などをデジタル化し構造化することで、個人レベルのデータを積み上げて経済や人口の変化を長期間にわたって追跡し、そこから新しい歴史の姿を捉えることを目指しているという意味で、「歴史ビッグデータ」と共通する問題意識を感じます。
- 「過去のビッグデータ」を探る欧州タイムマシン研究計画(カレントアウェアネス)
活動記録
歴史ビッグデータ研究の方向性や目標を定めるために、様々な人々との議論を重ねています。
支援
- 歴史ビッグデータ:史料とデータ駆動型モデルを結合する分野横断型研究基盤の構築, 科学研究費補助金 基盤研究(A), 日本学術振興会 [ No. 23H00510 ] / 研究代表者: 北本 朝展 / 期間: 2023-2025
- 歴史ビッグデータ研究基盤による過去世界のデータ駆動型復元と統合解析, 科学研究費補助金 基盤研究(A), 日本学術振興会 [ No. 19H01141 ] / 研究代表者: 北本 朝展 / 期間: 2019-2021
- 人文学ビッグデータにおける構造化ギャップの克服と分野横断的利用の検証, 機構間連携・文理融合プロジェクト, 情報・システム研究機構 / 研究代表者: 北本 朝展 / 期間: 2018-2019
更新情報
2020-08-07
デジタル台風:歴史的災害データベースと歴史的行政区域データセットを組み合わせることで、歴史的災害の記録が残る市区町村の分布を地図上に可視化しました。
2020-03-02
歴史ビッグデータの一つのアプリケーションと位置付けるデジタル台風:歴史的災害データベースを公開しました。
2019-04-01
科学研究費補助金 基盤研究(A), 歴史ビッグデータ研究基盤による過去世界のデータ駆動型復元と統合解析が採択されました。
2019-03-21
データ構造化の項目を追加しました。
2018-11-18
活動記録を整理し、歴史ビッグデータ研究会と歴史ビッグデータワークショップのページを作りました。
2018-10-04
活動記録を更新しました。
2018-06-16
歴史ビッグデータのページを開設しました。