CODHの概要

概要

沿革

2016年4月1日、情報・システム研究機構データサイエンス共同利用基盤施設(Joint Support-Center for Data Science Research)にて、人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)準備室が活動を開始しました。また2017年4月1日には準備室がセンターとなり、人文学オープンデータ共同利用センターとしての活動を正式にスタートしました。

北本 朝展がセンター長となり、国立情報学研究所統計数理研究所との共同研究、国内外の人文学研究機関との連携を軸に、人文学分野におけるデータのオープン化と共同利用の推進を目的とした研究・支援活動を進めていきます。

研究体制

とはいえ、人文学研究コミュニティでは大規模でオープンなデータを基盤としたデータサイエンスのアプローチは未だに発展途上であることから、単にデータをオープン化するだけで共同利用が拡大することは期待できません。そこで本センターでは、世界的に発展しつつあるデジタル・ヒューマニティーズ(人文情報学)の方法論を取り入れてデータベースやツールを開発・公開するとともに、こうした研究資源の利活用を推進するためのセミナーやチュートリアルを開催して、データが駆動する人文学研究の普及に努めます。

本センターでは「共創トライアド」という概念、すなわち人文学者と機械(情報学者)と市民が協力してデータ生成、解析、利用を進めていくという姿を考えています。特に、機械学習(人工知能)のための大規模でオープンな学習データを用意することで、人間と機械の分業を再定義するという課題に着目しています。

近年の機械学習(人工知能)技術の発展に伴い、人間から機械に仕事が移行しつつあります。しかし機械に仕事を任せるためには、まず機械が仕事の内容を学習するためのデータが必要です。そして、これに使えるオープンデータが大幅に不足している状況が人文学分野に人工知能を導入する際の障害となっていることから、研究者と市民が互いに学びあい共創できる情報基盤の構築を本センターは推進する計画です。

オープンデータ

データ公開の先行事例として、国文学研究資料館が中心となって推進する「歴史的典籍NW事業」と本センターとが協力して公開したオープンデータを紹介します。

まず「日本古典籍データセット」では、古典籍701点の画像データをダウンロード可能な形式で提供しています。この古典籍データの各々にDOI(デジタルオブジェクト識別子)を付与することにより、同一タイトルの古典籍が複数存在しても画像データを特定できるようになりました。

次に「日本古典籍字形データセット」では、くずし字を対象とした文字のデータセットとして3,999文字種、403,242文字のデータを公開しています。これは人間のための学習素材としてだけでなく、機械学習を用いた文字認識やテキスト化に向けたアルゴリズム開発のための学習データとしても使えます。そしてこれを基に、「人工知能はくずし字を読めるか?」を課題とした「くずし字チャレンジ!」コンテストも開催中です。

最後に江戸時代の料理本『卵百珍』から、現代でも調理可能なように翻訳し構造化したレシピを作成し、「江戸料理レシピデータセット」として公開しました。このレシピを日本最大のレシピサービスである「クックパッド」でも公開したところ、市民から予想外の大きな反響を得ることができました。

データ出版

データをオープンデータとして共有することは、オープンサイエンス時代における学術出版の一形態でもあります。人文学においてはデータをどのように出版すればよいか、そのための基盤の一例としてIIIF (International Image Interoperability)に関する研究開発を紹介します。

IIIFはここ数年、相互運用可能な画像配信方式として世界のミュージアムやライブラリでの採用が急速に進んでおり、CODHでも日本古典籍データセットディジタル・シルクロード 東洋文庫貴重書アーカイブなどで高解像度画像の公開に利用しています。ただしIIIFはまだ成長中の仕様であり、研究に必要な機能が欠けている場合もあります。

そこでCODHが注目したユースケースは、世界中のIIIFコンテンツから興味深い画像を収集するというものです。そこでCODHはCuration APIという新しい仕様を提案するとともに、その参照実装であるIIIF Curation Viewerを開発しました。そして、このビューアを用いて収集したコレクションを日本古典籍キュレーションIIIFグローバルキュレーションで公開しています。

このように、テーマに沿って画像を切り取って収集することは人文学研究の基本的な作業であり、これを公開すること自体が後続研究の素材としてのデータ出版の価値を持つと考えられるため、美術史研究を例としてその可能性を研究しています。

メンバー

国立情報学研究所

アクセス:国立情報学研究所(学術総合センター)

統計数理研究所

アクセス:統計数理研究所

活動内容

  1. 1. データサイエンスに基づく人文学(人文情報学)という新たな学問分野を創生し、データを中心としたオープン化を推進することで、組織の枠を超えた研究拠点を形成・強化
  2. 2. 情報学・統計学の最新技術に基づき、内容分析に基づく「深いデータ公開」を追究。
  3. 3. 機構間連携や海外機関連携を活用し、日本の人文知を世界に向けて集約、利用、発信。
  4. 4. オープンデータに基づくシチズンサイエンスやオープンイノベーションの実例を一般化。

日本語:情報・システム研究機構シンポジウム「分野を超えたデータサイエンスの広がり~自然科学から人文社会科学まで~」における講演資料ポスター関連情報)。

英語:第1回CODHセミナー Big Data and Digital Humanitiesにおける講演資料関連情報)。

活動報告

人文情報学とは、(1) 情報技術を用いて人文学の新しい研究手法を提案する、(2) 人文学データを用いて情報学の新しいアルゴリズムを開発すること、などを目的とした分野である。この分野においてオープンサイエンスを軸とした研究を促進するため、2017年4月に情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)が設立され、江戸時代の古典籍デジタル画像の大規模オープン化ディジタル・シルクロードなどのプロジェクトを推進している。例えばIIIF (International Image Interoperability Framework)に関する研究では、IIIF Curation Viewerというオープンソースソフトウェアを開発することで、全世界で公開されるミュージアム等の画像データをキュレーションして新たなデータを公開するための基盤を確立、日本古典籍字形データセットに関する研究では、江戸時代のくずし字を認識する機械学習データセットとディープラーニングプログラムを公開、さらに江戸料理レシピデータセットに関する研究では、市民がデータを利活用するためのFAIRデータ原則を検討するなど、人文学分野における学術のオープン化にまつわる幅広い研究を推進している。

関連トピック

資料・ロゴ

情報・システム研究機構 データサイエンス共同利用基盤施設 情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター