顔コレデータセット

顔コレデータセット(KaoKore Dataset)は、日本の絵巻物や絵本に登場する様々な顔貌画像「顔コレ(顔貌コレクション)」を、機械学習に利用しやすい形式で提供するデータセットです。データセットをご利用の際には、引用ライセンス利用ガイドラインなどをご確認ください。

データセット

顔コレデータセットは、複数の組織がIIIF (International Image Interoperability Framework)形式で公開する絵巻物・絵本に登場する様々な顔貌画像の所在情報とメタデータをまとめたものです。2020年9月現在、最新バージョン(v1.2)のデータセットは、8,848件の顔貌データを提供します。データセットの内容は以下の通りです。

  1. 顔貌画像(画素:256×256)の所在情報(URL)をまとめたテキストファイル
  2. 専門家が付与した属性情報(メタデータ)をまとめたテキストファイル
  3. 機械学習のためのラベルとデータ分割を指定するCSVファイル

オリジナルの顔コレとの違いは、画像サイズを256x256に統一したこと、および機械学習のためにデータ形式を変換したことです。

以下のGitHubリポジトリ(英語)では、顔コレデータセットに加え、顔貌画像のダウンロードと前処理を行うためのスクリプトもあわせて提供します。

GitHub: rois-codh/kaokore: Dataset for the Collection of Facial Expressions from Japanese Artwork

引用

顔コレデータセットを活用した研究成果を発表する際には、以下の論文の引用をご検討下さい。

ライセンス

KaoKoreデータセットは複数の機関が公開する画像を元に作成されており、クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

データセットを利用した著作物(論文等)には、データセットの名称およびDOIを表示してください。例えば以下のような表示をお願いします。

『顔コレデータセット』(CODHが複数の機関から収集), DOI:10.20676/00000353.

複数の原典画像公開者が関係しているため、すべての原典画像公開者を明示することは求めませんが、顔コレデータセットから派生した新たなデータセットやソフトウェアを公開する場合は、「原典画像公開者一覧ファイル」を配布物に含めてください。

ダウンロード:原典画像公開者一覧

現在の原典画像公開者は以下の通りです。

  1. 日本古典籍データセット(国文学研究資料館・ROIS-DS人文学オープンデータ共同利用センター)
  2. 慶應義塾大学メディアセンターデジタルコレクション(慶應義塾大学)
  3. 京都大学貴重資料デジタルアーカイブ(京都大学附属図書館)

また、コンテンツを変更して再配布する場合は、どのように変更したかを明示してください。そして他の利用者からみて誰が変更したかがわかるように示して下さい。

利用ガイドライン

顔コレデータセット(以下、当データセット)は、複数の組織が公開する絵巻物・絵本から切り取った顔貌に関するデータを収集し提供するものです。このガイドラインに則った利用をお願いいたします。

  1. 当データセットには、宗教や思想信条、その他の理由で敬意を払われている対象が含まれる場合があります。利用に際しては、多様な価値観を尊重し、敬意を払われている対象を貶めることのないよう注意してください。
  2. 当データセットの原典や原典制作者、原典画像公開者に敬意を払って利用してください。原典制作者や原典画像公開者の貢献を明示することは、画像のオープン化を後押しするにも欠かせないと考えています。
  3. パブリックドメイン作品の利用については、Public Domain Usage Guidelines - Europeana Collectionsなども参考にして下さい。

本ガイドラインは善意に基づくものであり、法的なものではありません。

データセットの目的・目標

当データセットのもととなった「顔コレ」は、ファセットで絞り込み、人間の目で個別画像を確認し一覧比較するという、主に美術史研究者による利用を想定した機能を備えています。一方、絵巻物や絵本の顔貌は、機械学習研究においても興味深いデータセットです。未調査の資料に対する主題特定や様式分析を効率化するために顔貌を自動抽出したり、クリエイティブな活動のために顔貌を自動生成したりと、機械学習は研究や活動の新たな可能性を広げることが期待できます。

そこで、機械学習コミュニティでの活用を想定した新たなデータセット「顔コレデータセット」を公開することにしました。顔コレと顔コレデータセットとの関係は、くずし字データセットKuzushiji-MNISTとの関係に類似しています。データセットの形式を変換することで、データセットの活用がより広い分野に拡大し、新たな研究を開始するための資源になることを期待しています。

関連情報

  1. 12th CODH Seminar - AI for Culture: From Japanese Art to Anime

ニュース

2020-09-23

顔コレデータセットをv1.2に更新し、顔貌数が8,573→8,848件に増加しました。

2020-06-10

顔コレデータセットをv1.1に更新し、顔貌数が5,552→8,573件に増加しました。

2020-02-21

顔コレデータセットを公開しました。