くずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)

一文字検索

文字(一文字)またはUnicode(U+????)を入力:

日本古典籍くずし字データセットを、文字または文字コードで検索し、くずし字データベースに蓄積されたひらがな(変体仮名)・カタカナ・漢字の字形を表示します。2019年1月現在、古典籍28点の画像データから切り取った、くずし字4,645文字種(字形データ684,165文字)が検索対象です。

使い方

  1. 検索ボックスに一文字を入力すると、文字コード(Unicode)ごとの字形一覧ページに移動し、複数の古典籍から収集した字形の一覧を表示します。
  2. 字形一覧ページの個々の文字をクリックすると、くずし字認識ビューア上に元の古典籍のデジタル画像を表示するとともに、文字の位置(四角形)を青線で表示します。これはくずし字の用例、すなわちどのような文脈で出現した文字かを確認するために便利な機能です。
  3. このビューアはAIくずし字認識(一文字)機能も備えています。ビューア右上のボタンを使って四角を描くと、その中に含まれるくずし字を認識して、現代の日本語文字に変換します。くずし字が読めない場合は、機械学習(ディープラーニング)によるAIくずし字認識サービスもお試し下さい。

くずし字アプリ・サービス(検索/認識/解析/解読)

注意

くずし字データベースは、江戸時代の版本(板本)を中心に写本も一部含む古典籍から、ひらがな(変体仮名)・カタカナ・漢字などを切り取って字形を収集しています。ただ、これまでに収集した字形は手書き文字としては比較的読みやすいものが中心で、古文書や古記録など解読がより難しい手書き文字の字形はあまり含まれていません。そうした文書の解読にも使えるよう、今後は古文書や古記録などの字形もデータベースに加えていきたいと考えています。

このサイトは、昔のいろいろなくずし字の用例を目で見て比較するという「くずし字辞典」的な使い方に適しています。もっときちんとくずし字の読み方を勉強したいという方には、我々の共同研究者が開発/公開にかかわっているモバイルアプリ「くずし字学習支援アプリKuLA」をおすすめします。Android版iOS版

なお旧字と新字、異体字などについては、現在統合作業を進めています。

くずし字とは?

くずし字データベースの活用

くずし字データベースは、AIによるくずし字認識を研究開発するための基礎的なデータセットです。詳しくは以下をご覧ください。

くずし字チャレンジ!

くずし字翻刻(テキスト化)/翻訳

くずし字OCR(AIくずし字認識)

第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜

ライセンス

クリエイティブ・コモンズ・ライセンス
日本古典籍くずし字データセット』(国文学研究資料館ほか所蔵/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター加工)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。

データセット全体をご利用の際には、例えば以下のような表示をお願いします。個別の古典籍のみをご利用の場合には、それぞれのページをご覧下さい。

『日本古典籍くずし字データセット』(国文研ほか所蔵/CODH加工) doi:10.20676/00000340

ここで、データセットのDOI (10.20676/00000340)は、データセットを特定するために重要な情報ですので、引用の際にはできるだけ含めて下さい。なお、このDOIはデータセットの更新にかかわらず不変のIDとし、データセットのバージョン管理は行いません。

また可能な場合には、データ提供元である人文学オープンデータ共同利用センターへのリンクをお願いします。

提供:人文学オープンデータ共同利用センター