くずし字チャレンジ!

  • 「字形データセット」データ作成基本仕様を公開

  • 2017 12/05

国文学研究資料館が、「字形データセット」データ作成基本仕様を公開しました。この仕様書をカスタマイズしていろいろな機関が作成した字形データセットが、機械学習のためのオープンデータとして共有できれば理想です。

この仕様をベースにすることで、字形データセットの構築に関する業務委託がやりやすくなるだけでなく、このフォーマットでデータを構築しておけば、CODHの字形データセットと互換性を確保した上で新たな字形データセットが公開できます。これから翻刻プロジェクトを進める方は、ぜひこの仕様書を活用して、みんなで共有できるデータを構築して欲しいと思っています。

またオープンデータ化にご賛同いただけるようでしたら、ぜひ構築した字形データセットをCODHで公開させて下さい。CODHで公開することにより、賢い文字認識ソフトウェアの研究に貴重なデータがきちんと活用されやすくなります。