くずし字検索
日本古典籍くずし字データセットを、文字または文字コードで検索し、くずし字データベースに蓄積されたひらがな(変体仮名)・カタカナ・漢字の字形を表示します。2019年11月現在、古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字が検索対象です。それぞれの文字の出現頻度については文字種ごとのくずし字一覧、変体仮名についてはUnicode変体仮名一覧をご覧下さい。
使い方
- 検索ボックスに文字列を入力します。一文字の場合は、文字コード(Unicode)ごとの字形一覧ページに直接移動します。また複数文字の場合は、文字コードごとのページへのリンクを表示します。
- 字形一覧ページの個々の文字をクリックすると、くずし字認識ビューア上に原本のデジタル画像を表示するとともに、文字の位置(四角形)を青線で表示します。これはくずし字の用例、すなわちどのような文脈で出現した文字かを確認するために便利なだけでなく、文字が連続する続け字の書き方の確認にも使えます。
- このように、データの根拠となる原本へのリンクを常に提示できるのがデジタルアーカイブの強みであり、これはIIIFを活用した検証可能な人文学の実現にもつながります。
AIくずし字認識
- くずし字認識ビューアはAIくずし字認識(一文字)機能を備えています。ビューア右上のボタンを使って四角を描くと、その中に含まれるくずし字を認識して、現代の日本語文字に変換します。くずし字が読めない場合は、機械学習(ディープラーニング)によるAIくずし字認識サービスもお試し下さい。
- 一ページ全体のくずし字をAIで認識したい場合には、このデータセットを活用したKuroNetくずし字認識サービスをご活用下さい。
- くずし字を含む画像をスマートフォンで撮影し認識したい場合には、このデータセットを活用したAIくずし字認識アプリ「みを」(Android版/iOS版)をご利用下さい。
注意
くずし字データベースは、江戸時代の版本(板本)を中心に写本も一部含む古典籍から、ひらがな(変体仮名)・カタカナ・漢字などを切り取って字形を収集しています。ただ、これまでに収集した字形は手書き文字としては比較的読みやすいものが中心で、古文書や古記録など解読がより難しい手書き文字の字形はあまり含まれていません。このような昔の文書の解読にも使えるよう、今後は古文書や古記録などの字形もデータベースに加えていきたいと考えています。
このサイトは、様々なくずし字(崩し字)の用例を目で見て比較するという「くずし字辞典」的な使い方に適しています。もっときちんとくずし字の読み方を勉強したい、練習したいという方には、我々の共同研究者が開発/公開にかかわっているくずし字学習支援アプリKuLAをおすすめします。
くずし字データベースの活用
くずし字データベースは、AIによるくずし字認識を研究開発するための基礎的なデータセットです。詳しくは以下をご覧ください。