くずし字検索
日本古典籍くずし字データセットを文字または文字コードで検索し、ひらがな(変体仮名)・カタカナ・漢字の字形を表示します。2019年11月現在、古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字が検索対象です。それぞれの文字の出現頻度については文字種ごとのくずし字一覧、変体仮名についてはUnicode変体仮名一覧をご覧下さい。
サイトの使い方
- 検索ボックスに文字列を入力します。一文字の場合は、文字コード(Unicode)ごとの字形一覧ページに直接移動します。また複数文字の場合は、文字コードごとのページへのリンクを表示します。
- 字形一覧ページの個々の文字をクリックすると、くずし字認識ビューア上に原本のデジタル画像を表示するとともに、文字の位置(四角形)を青線で表示します。これはくずし字の用例、すなわちどのような文脈で出現した文字かを確認できるだけでなく、文字が連続する続け字(連綿)の書き方の見本としても便利です。
- このように、データの根拠となる原本へのリンクを提示し、IIIFを活用したアプリで表示できるのがデジタルアーカイブの強みです。これは検証可能な人文学の実現にもつながります。
- 本データセットはオープンデータ(CC BY-SA)であり、非商用利用/商用利用を問わず、出典を明示することで無料(フリー)でご利用できます。ご利用にあたっては、各データのライセンスをご確認ください。
AIくずし字認識(くずし字→現代日本語文字変換)
日本古典籍くずし字データセットを活用した、機械学習(ディープラーニング)によるAIくずし字認識サービスを、3種類提供しています。
- AIくずし字認識(一文字)は、くずし字認識ビューア右上のボタンを使って四角を描くと、その中に含まれるくずし字一文字を認識して、現代の日本語文字に変換する機能を提供します。
- KuroNetくずし字認識サービスは、一ページ全体のくずし字をAIで認識する機能を提供します。
- AIくずし字認識アプリ「みを」(Android版/iOS版)は、くずし字を含む画像をスマートフォンで撮影し認識する機能を提供します。
くずし字データセットの特徴
くずし字データベースは、江戸時代の版本(板本)を中心に写本も一部含む古典籍から、ひらがな(変体仮名)・カタカナ・漢字などを切り取って字形を収集しています。ただ、これまでに収集した字形は手書き文字としては比較的読みやすいものが中心で、古文書や古記録など解読がより難しい手書き文字の字形はあまり含まれていません。このような昔の文書の解読にも使えるよう、今後は古文書や古記録などのくずし字(崩し字)の字形もデータベースに加えていきたいと考えています。
このサイトは、様々なくずし字(草書)の用例を目で見て比較するという「くずし字辞典」的な使い方に適しています。もっときちんとくずし字の読み方を勉強したい、練習したいという方には、我々の共同研究者が開発/公開にかかわっているくずし字学習支援アプリKuLAをおすすめします。
くずし字データセットの活用
くずし字データセットは、AIによるくずし字認識を研究開発するための基礎的なデータセットです。詳しくは以下をご覧ください。
日本文化とAIシンポジウム2019〜AIがくずし字を読む時代がやってきた〜
第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜
関連サービス
- 印鑑などに使われる篆書(てんしょ)の検索には、篆書字体データベース検索をご利用下さい。
- 古活字画像を用いて現代日本語テキストをくずし字画像に変換するサービスについては、そあん(soan)をご利用下さい。