くずし字一文字認識

使い方

ディープラーニングを用いてくずし字を一文字認識します。IIIFを用いて画像を配信するサイトならどこでもお試しできます。まず、くずし字認識ビューアにIIIF Manifestを読み込みます。次に画像の一部領域を切り取ります。具体的には、ビューアの右上に表示される「■」ボタンを使って、認識したい領域を四角で囲みます。次に四角をクリックすると、その中に書いてある文字を認識し、その結果をポップアップウィンドウ内に表示します。

この機能はあくまで実験的に提供するものであり、今後さらに認識精度を向上させる余地があります。現状では認識誤りが生じることも多々あることにご注意下さい。

なお本システムにはMobileNetV2とTensorflow.jsを利用しています。初回はモデルデータをダウンロードするため、起動に時間がかかることがあります。

くずし字データセット

くずし字認識モデルの学習には日本古典籍くずし字データセットを使っています。

くずし字検索

くずし字データセットの一覧を見る(機械のための学習データ)

文字種ごとのくずし字一覧を見る(人間のための学習データ)

IIIFによる画像配信

IIIF (International Image Interoperability Framework)は、世界的に普及が進む標準的な画像配信形式です。以下ではIIIFによる画像配信を行っています。

  1. 日本古典籍くずし字データセット 文字種(くずし字)一覧
  2. 日本古典籍データセット
  3. おすすめIIIFサイト

なお、くずし字認識ビューアの使い方についてはIIIF Curation Viewerをご覧下さい。またIIIFを活用した研究については、IIIF Curation PlatformIIIF Curation Platformの特長などでご紹介しています。

メンバー

  1. MobileNetモデル構築:Mikel Bober-Irizar
  2. Tensorflow.js認識システム構築:Tarin Clanuwat
  3. IIIF Curation Viewer統合:Asanobu Kitamoto

更新情報

2019-05-02

くずし字認識結果をビューア上のポップアップウィンドウ内に表示する方式に変更しました。

2019-04-27

くずし字一文字認識システムを公開しました。