くずし字データベース検索(変体仮名・漢字)

一文字検索

文字(一文字)またはUnicode(U+????)を入力:

日本古典籍くずし字データセットを、文字または文字コードで検索し、くずし字データベースに蓄積された字形を表示します。2019年1月現在、古典籍28点の画像データから切り取った、くずし字4,645文字種(字形データ684,165文字)が検索対象です。

また、文字一覧ページで個々の文字をクリックすると、くずし字認識ビューアで元の古典籍画像を表示し、文字の位置(四角形)を青線で表示します。これにより、切り取られる前の古典籍ではどのような文脈で出現した文字なのかを確認できます。

さらにこのビューアはAIくずし字認識(一文字)機能も備えています。AI(ディープラーニング/機械学習)によるくずし字認識(解読)もお試し下さい。

くずし字データベースは、版本(板本)を中心に写本も一部含む古典籍から、変体仮名(かな)や漢字を切り取ったものです。ただしこれらは、手書き文字としては比較的読みやすく書かれたものです。それに対し、古文書や古記録などの手書き文字は変異がより大きくなるため、解読もより難しくなります。そうした場合にも使えるよう、今後は古文書や古記録などの文字もデータベースに加えていきたいと考えています。

ライセンス

クリエイティブ・コモンズ・ライセンス
日本古典籍くずし字データセット』(国文学研究資料館ほか所蔵/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター加工)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

データセット全体をご利用の際には、例えば以下のような表示をお願いします。個別の古典籍のみをご利用の場合には、それぞれのページをご覧下さい。

『日本古典籍くずし字データセット』(国文研ほか所蔵/CODH加工) doi:10.20676/00000340

ここで、データセットのDOI (10.20676/00000340)は、データセットを特定するために重要な情報ですので、引用の際にはできるだけ含めて下さい。なお、このDOIはデータセットの更新にかかわらず不変のIDとし、データセットのバージョン管理は行いません。

また可能な場合には、データ提供元である人文学オープンデータ共同利用センターへのリンクをお願いします。

提供:人文学オープンデータ共同利用センター