AIくずし字認識(一文字)

使い方

ディープラーニング(機械学習/AI)を用いてくずし字を一文字認識するサービスです。IIIFによる画像配信に対応していれば、世界のどこのサイトでもお試しできます。

まず、くずし字認識ビューアにIIIF Manifestを読み込みます。次に画像の一部領域を切り取ります。具体的には、ビューアの右上に表示される「■」ボタンを使って、認識したい領域を四角で囲みます。次に四角をクリックすると、その中に書いてある一文字(単文字)を認識し、その結果をポップアップウィンドウ内に表示します。

この機能は実験的に提供しており、認識誤りが生じることもあることにご注意下さい。今後さらに認識精度を向上させ、くずし字OCR(解読)サービスとしての機能を向上させる計画です。

なお本システムにはMobileNetV2とTensorflow.jsを利用しています。初回はモデルデータをダウンロードするため、起動に時間がかかることがあります。

くずし字データセット

くずし字認識モデルの学習には日本古典籍くずし字データセットを使っています。

くずし字データベース検索(変体仮名・カタカナ・漢字)

くずし字データセットの一覧を見る(機械のための学習データ)

文字種ごとのくずし字一覧を見る(人間のための学習データ)

IIIFによる画像配信

IIIF (International Image Interoperability Framework)は、世界的に普及が進む標準的な画像配信形式です。以下ではIIIFによる画像配信を行っています。

  1. 日本古典籍くずし字データセット 文字種(くずし字)一覧
  2. 日本古典籍データセット
  3. おすすめIIIFサイト

なお、くずし字認識ビューアの使い方についてはIIIF Curation Viewerをご覧下さい。またIIIFを活用した研究については、IIIF Curation PlatformIIIF Curation Platformの特長などでご紹介しています。

メンバー

  1. MobileNetモデル構築:Mikel Bober-Irizar
  2. Tensorflow.js認識システム構築:Tarin Clanuwat
  3. IIIF Curation Viewer統合:Asanobu Kitamoto

更新情報

2019-05-02

くずし字認識結果をビューア上のポップアップウィンドウ内に表示する方式に変更しました。

2019-04-27

AIくずし字認識(一文字)システムを公開しました。