人工知能(AI)・機械学習・IIIF・モバイルなど、これからの古写真アーカイブに欲しくなるテクノロジーを先駆的に活用します。
1. AIによる古写真の自動カラー化(AI彩色写真)
機械学習(AI)を用いて古写真を自動的にカラー化する研究が活発化しています。かつて白黒写真しかなかった時代、「彩色写真」というものがありました。絵の具などを使って人間が手彩色するという方法で、白黒写真をカラー化し、おみやげなどとして売っていたのです。同様の作業を機械で行うのが自動カラー化です。最近の流行は、多数の画像から彩色のパターンを学習するという機械学習の方法です。多数のカラー写真を使って白黒画像とカラー画像の対応づけを学習すれば、古写真に対する「いかにもありそうな彩色」を自動化できるというものです。
深層学習(ディープラーニング)による自動カラー化、あるいは「AI彩色」の結果は、深層学習のアルゴリズムだけでなく、学習に用いたデータセットにも依存します。一般的にAI彩色は、植物の緑色や、空や水の青色など自然物の彩色は得意です。逆に人工物に対する彩色はあまり得意ではありません。その理由は、人工物の場合は、物体の色と形・テクスチャの組み合わせが状況によって様々に異なるからです。同様の現象は、自然物の場合でも紅葉(黄葉)を緑に彩色してしまう場合などに起こりますが、着物や建物のような人工物では彩色のパターンはもっと千差万別で、一つの「正解」はありません。
こうした場合の正確な彩色には、色に関する知識をもつ人間による手動修正が必要となります。機械が大まかに彩色し、人間がそれを修正する。この方法が、これからの彩色における機械と人間の役割分担になっていくと予想されます。とはいえ、本アーカイブのように数万枚規模の古写真アーカイブともなると、人間が一つずつ彩色を修正していくことは現実的とは言えません。そこで本アーカイブでは、機械による自動彩色の結果をそのまま利用することにしました。
また、たとえ自動彩色であっても、アーカイブ写真群の特徴に合わせて学習することが本来は望ましいのですが、それには時間もコストもかかることから、本アーカイブでは既存のソフトウェアを活用して自動彩色を行うことにしました。自動彩色のためのソフトウェアやサービスはいくつも公開されていますが、本アーカイブでは実行の容易さと精度の良さのバランスを観点に比較検討し、以下の研究成果を利用することにしました。
研究成果のソフトウェアコードは、GitHubで公開されています。
Copyright (C) 2016 Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa This work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-nc-sa/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA. Satoshi Iizuka, Waseda University iizuka.waseda.jp, http://hi.cs.waseda.ac.jp/~iizuka/index_eng.html Edgar Simo-Serra, Waseda University esimo.waseda.jp, http://hi.cs.waseda.ac.jp/~esimo/
またモデルとしては、ImageNetを対象に学習したモデルを用いています。ImageNetについては以下の論文を参照して下さい。
ImageNet Large Scale Visual Recognition Challenge, Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution)
華北交通アーカイブを対象に自動カラー化を適用した結果を下に示します。下段がオリジナル画像、上段がカラー化画像です。結果を見ると、特に植物や空、水などがうまくカラー化できていることがわかります。
図1: 華北交通アーカイブの写真に対する自動カラー化の結果。特に良好な結果が得られた例を選んだ。2. AIによる古写真の内容分析
古写真アーカイブを構築する上で大きな問題となるのが、検索のためのメタデータの付与です。古写真に写っているものを対象に検索するには、従来は人間が写真を一つずつ閲覧しながら検索に有用な情報(タグ)を付与する方法が一般的でした。とはいえ、本アーカイブのように数万枚規模の古写真アーカイブともなると、人間が一つずつタグを付与するのは現実的ではありません。そこで本アーカイブでは、機械が自動的にタグを付与するAIタグづけ技術を利用することにしました。
2019年公開時に利用した技術
ここでも鍵を握るのは深層学習(ディープラーニング)です。まず、画像を入力すると、その画像が何であるかを出力する、画像分類問題を機械に学習させます。そうすると機械は、画像を与えると、その画像が属する分類クラスの度合いを出力するようになります。この度合いの高いものから選んでいくことにより、画像の内容を認識したAIタグづけが可能となります。
この場合も、本来はアーカイブの特徴に合わせた分類モデルを学習させることが望ましいのですが、それには時間もコストもかかることから、本アーカイブでは既存の学習結果をそのまま活用することにしました。この場合、古写真には明らかに含まれないタグ(television等)が出現するという問題が生じます。とはいえ、こうしたタグを「読み替える」ことで有用な情報を発見できるケースもあり、これらを単純に「間違い」としてしまうのはもったいない。むしろこの情報を使ってどのように写真へのアクセス性/発見性を高めるか、という発想の転換が重要になってきます。
こうした画像タグづけのためのソフトウェアやサービスはいくつも公開されていますが、本アーカイブでは、利用の容易さを観点に比較検討し、ILSVRC2012データセットを対象に1000クラスの画像分類を学習したTensorFlow実装のInception V3モデルを利用することにしました。Inception V3については、以下の論文を参照してください。
Rethinking the Inception Architecture for Computer Vision, Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna
華北交通アーカイブを対象にAIタグづけを適用した結果として「shoji(障子)」というタグを付与された画像を示します。いずれも障子に特徴的な格子状の物体を捉えているため、すべてが「障子」としては正解ではないかもしれませんが、建築に関する写真を検索するには有用です。また、人間が付与するタグとして「障子」というタグは必要がないと選ばれないため、機械は人間が付与しないタグを付与する補完的な役割を果たしているとも言えます。
図2: 華北交通アーカイブの写真に対するAIタグ付けの例。例として「shoji(障子)」クラスを示す。なおAIタグづけには、オリジナル画像ではなく自動カラー化画像を用いることにしました。どちらを用いる方がうまくいくかは利用するツールの組み合わせに依存しますが、今回は予備的な実験で自動カラー化画像を用いた方が結果が良好だったため、自動カラー化→AIタグづけという2つの機械学習モデルを組み合わせたワークフローを用いました。
図3: 華北交通アーカイブにおける、機械によるカラー化とAIタグづけのワークフロー。2024年更新時に利用した技術
その後、AI技術は大きく発展しました。最近は、生成AIと呼ばれる技術として、大規模言語モデル(Large Languge Model)やビジョン言語モデル(Vision Language Model)、さらにはマルチモーダル基盤モデルなどの技術が登場し、画像の内容分析を行うことも可能となりました。そこで、最新の生成AIモデルの一つであるOpenAIのGPT-4oモデルを活用し、古写真のタグ付け、キャプション付けを行いました。
GPT-4oは、画像を入力してそれを説明する文章を生成することができます。ただし、具体的に生成される文章は、プロンプトと呼ばれる指示に影響されることになります。今回の更新では、写真中の人工物や景観などを説明するように指示しました。またGPT-4oは、画像をカラー化しなくても内容分析が可能であるため、オリジナル画像を入力しています。また、台紙に貼られた写真を自動的に切り抜く別のAIモデルを開発し、切り抜いた画像を入力しているため、1枚の台紙に複数のタグおよびキャプションが付与されている場合があります。ただし、今回の生成に用いたプロンプトはまだ改善の余地が大きく、研究に役立つ内容分析ができるプロンプトの研究を今後も進めていく計画です。
さらに、テキスト埋め込みモデル(OpenAI text-embedding-3-small)を用いて、キャプション類似検索も実現しました。コサイン類似度に基づくベクトル検索を用いて、キャプションの類似度が高い画像を表示します。また、ベクトル検索のためのベクトルデータベースには、pgvectorを利用しています。これは、メタデータに関する検索条件をSQLで書きやすいこと、PostgreSQLを使い慣れていること、などが理由です。人文学資料の検索においては、メタデータに関する条件指定が必要な場合が多いため、ベクトル検索に特化したエンジンよりも、リレーショナルデータベースにベクトル検索機能を追加したエンジンの方が利点が大きいと考えています。
AIタグ一覧
AIタグ一覧では、AIが生成したすべてのタグを見ながら画像を検索できます。
AIキャプション検索
3. IIIF Curation Platform
華北交通アーカイブでは、古写真の画像配信にInternational Image Interoperability Framework (IIIF)を用いています。IIIFとは世界の先進的な美術館・図書館・研究機関などが続々と採用している画像配信方式であり、画像のズームイン・アウトが簡単にできるだけでなく、目的に合わせて画像ビューアを変更したり、画像ビューアに独自機能を組み込んだりすることもできます。こうしたメリットに着目し、ROIS-DS人文学オープンデータ共同利用センターでは、2016年ごろからIIIF Curation Platformの開発を続けてきました。
今回の華北交通アーカイブのために新たに開発したのが、IIIF Curation Viewer Embedded(埋め込み型IIIF Curation Viewer)です。この開発では、上述の機械学習活用に対応する機能を実装することを目標としました。
(1) 古写真の自動カラー化への対応として、画像切り替え機能を開発しました。IIIF Presentation API 2で定義されているoa:Choice(Choice of Alternative Resources)を新たに実装し、ビューア上で白黒写真とカラー化写真とを切り替え表示できるようにしました。
(2) 古写真のAIタグづけへの対応として、画像切り取り機能を開発しました。IIIF Image APIの画像座標指定機能と連動させ、初期表示の段階で画像の一部を拡大表示できるようにしました。
(3) メタデータなどの関連情報表示への対応として、HTMLページにIIIF Curation Viewerを埋め込む機能を開発しました。IIIF画像とメタデータ、ナビゲーションをHTMLページ上で併存できるようにしました。
以上、3点の機能改善により、華北交通アーカイブで活用するに十分な機能を備えることになりました。なおIIIF Curation Viewer Embeddedは、オープンソースとして公開しています。
4. モバイル機器によるオフラインとオンラインの連携
2019年2月13日から京都大学総合博物館で行う展示には、華北交通アーカイブの写真も展示されます。しかしミュージアムにおける展示がリアル空間(オフライン)で完結してしまうと、デジタル空間(オンライン)に存在するアーカイブが展示から切り離されてしまい、両者を連携させることができません。そこで、オンラインに仮想的な展示を用意し、QRコードとモバイル機器を用いてオフラインとオンラインをリンクすることで、ミュージアム体験をデジタルアーカイブによって拡張することを試みます。
第一のポイントがQRコードとモバイル機器の活用です。展示室のそれぞれの写真のキャプションにQRコードを埋め込み、それをモバイル機器で読み取ることで、デジタルアーカイブ上の展示写真に直接アクセスできるようにしました。これによって、実物よりも写真を拡大したり、カラー化された写真とオリジナル写真を比較したり、関連写真を検索したりするなど、オンラインにしかない機能を活用して展示写真を能動的に楽しむことが可能となります。また、QRコード読取機能さえあれば、自分のスマホやタブレットに新たなアプリをインストールする必要がないことも、この仕組みの大きなメリットです。
第二のポイントがIIIFキュレーションの活用です。IIIFキュレーションでは、IIIFに対応したデジタルアーカイブから様々な仮想コレクションが構築できます。例えば「カメラが写した80年前の中国―京都大学人文科学研究所所蔵 華北交通写真」展示写真リストは、展示写真にワンポイント解説を加えた仮想コレクションとして、華北交通アーカイブから作成したものです。またこれは、会場での展示順やキャプションまでを含めた展示内容のアーカイブにもなっています。
こうした仮想展示の再生にIIIF Curation Playerを活用すれば、特別なアプリを開発しなくても、会場内で使える簡易的な鑑賞ガイドを提供できます。また博物館を出て帰宅した後でも、あるいは博物館での展示が終了した後でも、仮想コレクションにウェブ経由でアクセスして展示を振り返り、内容をさらに詳しく調べることもできます。
このように、QRコードを活用してオフラインからオンラインへの動線を提供し、IIIF Curation Platformを活用して仮想展示と簡易ガイドを提供するというのが、華北交通アーカイブにおけるモバイル機器の活用法です。こうした方法にはどのようなメリットがあり、どのような限界があるのかなどについては、これから調べていきたいと考えています。
以下の画像のQRコードをスマホなどで読みこむと、アーカイブに直接アクセスできます。