使い方
ディープラーニング(機械学習/AI)を用いてくずし字を一文字認識するサービスです。IIIF (International Image Interoperability Framework)による画像配信に対応していれば、世界のどこのサイトでもお試しできます。
まず、KogumaNetくずし字認識ビューアにIIIF Manifestを読み込みます。次に画像の一部領域を切り取ります。具体的には、ビューアの右上に表示される「■」ボタンを使って、認識したい領域を四角で囲みます。次に四角をクリックすると、その中に書いてある一文字(単文字)を認識し、その結果をポップアップウィンドウ内に表示します。
この機能は実験的に提供しており、認識誤りが生じることもあることにご注意下さい。今後さらに認識精度を向上させ、くずし字OCR(解読)サービスとしての機能を向上させる計画です。
なお本システムにはMobileNetV2とTensorflow.jsを利用しています。初回はモデルデータをダウンロードするため、起動に時間がかかることがあります。
使い方については、KogumaNetくずし字認識サービスを使ってみた(東大 加納 靖之 氏)もご参考に。
くずし字データセット
くずし字認識モデルの学習には日本古典籍くずし字データセットを使っています。
くずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)
なお、KogumaNetくずし字認識ビューアの使い方についてはIIIF Curation Viewerをご覧下さい。またIIIFの活用については、IIIF Curation Platform、IIIF Curation Platformの特長、おすすめIIIFサイトなどをご覧下さい。
メンバー
- MobileNetモデル構築:Mikel Bober-Irizar
- Tensorflow.js認識システム構築:Tarin Clanuwat
- IIIF Curation Viewer統合:Asanobu Kitamoto
更新情報
2019-05-02
くずし字認識結果をビューア上のポップアップウィンドウ内に表示する方式に変更しました。
2019-04-27
KogumaNetくずし字認識サービス(一文字)を公開しました。