CODHの概要

ミッション

情報・システム研究機構 データサイエンス共同利用基盤施設(Joint Support-Center for Data Science Research) 人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)は、人文学分野におけるデータ駆動型研究の推進と共同利用拠点の形成に向けて、以下のミッションに取り組みます。

  • 1. データサイエンスに基づく人文学(人文情報学)という新たな学問分野を創生し、オープン化の推進により組織の枠を超えた研究拠点を形成・強化。
  • 2. 人文学データの内容への「深いアクセス」を実現する情報学・統計学の最新技術を開発。
  • 3. 機構間連携や海外機関連携により、日本の人文知を世界に向けて集約、利用、発信。
  • 4. オープンデータやアプリなどを基盤としたシチズンサイエンスやオープンイノベーションを展開。

関連資料

メンバー

国立情報学研究所

アクセス:国立情報学研究所(学術総合センター)

統計数理研究所

アクセス:統計数理研究所

アラムナイ(アルムナイ)

概要

沿革

2016年4月1日、情報・システム研究機構データサイエンス共同利用基盤施設(Joint Support-Center for Data Science Research)にて、人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)準備室が活動を開始しました。また2017年4月1日には準備室がセンターとなり、人文学オープンデータ共同利用センターとしての活動を正式にスタートしました。北本 朝展がセンター長となり、国立情報学研究所統計数理研究所との共同研究、国内外の人文学研究機関との連携を軸に研究・支援活動を進めていきます。

研究体制

人文学研究コミュニティでは、大規模でオープンなデータを基盤とするデータサイエンスのアプローチは未だに発展途上です。データを単にオープン化するだけで共同利用が拡大すると期待できる状況にはありません。そこで本センターでは、世界的に発展しつつあるデジタル・ヒューマニティーズ(人文情報学)の方法論を取り入れてデータベースやツールを開発・公開するとともに、こうした研究資源の利活用を推進するためのセミナーやチュートリアルを開催して、データが駆動する人文学研究の普及に努めます。

本センターでは「共創トライアド」という概念、すなわち人文学者と機械(情報学者)と市民が協力してデータ生成、解析、利用を進めていくという姿を考えています。特に、機械学習(人工知能)のための大規模でオープンな学習データを用意することで、人間と機械の分業を再定義するという課題に着目しています。

近年の機械学習(人工知能)技術の発展に伴い、人間から機械に仕事が移行しつつあります。しかし機械に仕事を任せるためには、まず機械が仕事の内容を学習するためのデータが必要です。そして、これに使えるオープンデータが大幅に不足している状況が人文学分野に人工知能を導入する際の障害となっていることから、研究者と市民が互いに学びあい共創できる情報基盤の構築を本センターは推進する計画です。

オープンデータ

データ公開の先行事例として、国文学研究資料館が中心となって推進する「歴史的典籍NW事業」と本センターとが協力して公開したオープンデータを紹介します。

まず「日本古典籍データセット」では、古典籍701点の画像データをダウンロード可能な形式で提供しています。この古典籍データの各々にDOI(デジタルオブジェクト識別子)を付与することにより、同一タイトルの古典籍が複数存在しても画像データを特定できるようになりました。

次に「日本古典籍字形データセット」では、くずし字を対象とした文字のデータセットとして3,999文字種、403,242文字のデータを公開しています。これは人間のための学習素材としてだけでなく、機械学習を用いた文字認識やテキスト化に向けたアルゴリズム開発のための学習データとしても使えます。そしてこれを基に、「人工知能はくずし字を読めるか?」を課題とした「くずし字チャレンジ!」コンテストも開催中です。

最後に江戸時代の料理本『卵百珍』から、現代でも調理可能なように翻訳し構造化したレシピを作成し、「江戸料理レシピデータセット」として公開しました。このレシピを日本最大のレシピサービスである「クックパッド」でも公開したところ、市民から予想外の大きな反響を得ることができました。

データ出版

データをオープンデータとして共有することは、オープンサイエンス時代における学術出版の一形態でもあります。人文学においてはデータをどのように出版すればよいか、そのための基盤の一例としてIIIF (International Image Interoperability)に関する研究開発を紹介します。

IIIFはここ数年、相互運用可能な画像配信方式として世界のミュージアムやライブラリでの採用が急速に進んでおり、CODHでも日本古典籍データセットディジタル・シルクロード 東洋文庫貴重書アーカイブなどで高解像度画像の公開に利用しています。ただしIIIFはまだ成長中の仕様であり、研究に必要な機能が欠けている場合もあります。

そこでCODHが注目したユースケースは、世界中のIIIFコンテンツから興味深い画像を収集するというものです。そこでCODHはCuration APIという新しい仕様を提案するとともに、その参照実装であるIIIF Curation Viewerを開発しました。そして、このビューアを用いて収集したコレクションを日本古典籍キュレーションIIIFグローバルキュレーションで公開しています。

このように、テーマに沿って画像を切り取って収集することは人文学研究の基本的な作業であり、これを公開すること自体が後続研究の素材としてのデータ出版の価値を持つと考えられるため、美術史研究を例としてその可能性を研究しています。

分野の壁を越えて

CODHでは、写真や地図(地理情報)や雑誌など、他の種類のオープンデータも扱っています。それらのデータセットを整理して利用するために、CODHでは研究者や市民のためのウェブアプリやモバイルアプリを開発しています。人文学においてオープンデータを一般的なものとして広めていくためには、セミナーやチュートリアル、トレーニングコースなどの様々なプログラムを企画していくことも有益です。加えて、研究者や市民がデータ構築やデータ分析の活動に幅広く加わり、市民科学のような活動を進めていくことも挑戦的な課題です。CODHの活動は本来的に複数分野にまたがるものですが、さらに学問分野という境界を越えるという意味では超学際的でもあります。

活動報告

人文情報学とは、(1) 情報技術を用いて人文学の新しい研究手法を提案する、(2) 人文学データを用いて情報学の新しいアルゴリズムを開発すること、などを目的とした分野である。この分野においてオープンサイエンスを軸とした研究を促進するため、2017年4月に情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)が設立され、江戸時代の古典籍デジタル画像の大規模オープン化ディジタル・シルクロードなどのプロジェクトを推進している。

例えばIIIF (International Image Interoperability Framework)に関する研究では、IIIF Curation Viewerというオープンソースソフトウェアを開発することで、全世界で公開されるミュージアム等の画像データをキュレーションして新たなデータを公開するための基盤を確立、日本古典籍字形データセットに関する研究では、江戸時代のくずし字を認識する機械学習データセットとディープラーニングプログラムを公開、さらに江戸料理レシピデータセットに関する研究では、市民がデータを利活用するためのFAIRデータ原則を検討するなど、人文学分野における学術のオープン化にまつわる幅広い研究を推進している。

資料

ロゴ

情報・システム研究機構

情報・システム研究機構 データサイエンス共同利用基盤施設

情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター