第2回CODHセミナー
くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜

テーマ

過去の日本文化を知るには過去の文字が読めなくてはなりませんが、例えば江戸時代の本がすらすら読めるのは日本人でも少ないため、過去の日本文化が知られることなく埋もれているのが現実です。そうした現実を変えるには、古典籍をデジタル化して誰でもアクセスできるオープンデータとして公開するだけでなく、書籍に何が書かれて/描かれているのかという内容も検索/活用できる「ディープアクセス」技術の研究も進めていく必要があります。

そこで今回のセミナーでは、くずし字を読むというチャレンジに対して、機械によるアプローチと人間によるアプローチを用いた研究を紹介します。まず機械によるアプローチとは、パターン認識や機械学習などのいわゆる「人工知能」を用いて、機械を賢くして文字認識を自動化しようというアプローチです。一方人間によるアプローチとは、市民参加型翻刻やモバイルアプリなどを用いて、人間を賢くして多数の人間が協力しながら文字を読むというアプローチです。これら二つのアプローチは、どちらか一つを選択せねばならないものではありません。くずし字チャレンジの未来は、人間と機械がライバルとしてではなくチームを組んで、お互いに協力しながらくずし字を読み進めていくものになることでしょう。

今回のセミナーは、関連する研究テーマに取り組む研究者の方々をお招きして、これまでの研究の紹介と今後の展望について語っていただきます。これを機会に、くずし字へのチャレンジについて考えてみませんか?

基本情報

日時 2017年2月10日(金) 13:00-15:20
会場 国立情報学研究所 1208/1210会議室
参加登録 参加費は無料、定員は約40名です。参加ご希望の方は、2月9日(木)までに参加登録をお願いします。
言語 講演はすべて日本語です。
主催 情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)
研究プロジェクト デジタル史料批判:エビデンスベース人文情報学のための連結指向型研究基盤, 科学研究費補助金 基盤研究(B)
検索機能の高度化に係る総合的研究, 日本語の歴史的典籍の国際共同研究ネットワーク構築事業 研究開発系共同研究, 国文学研究資料館

参加登録

セミナーは終了しました。参加者は41名でした。ご参加ありがとうございました。

プログラム

発表概要

NIJL-NWプロジェクト―くずし字読解への課題と期待

発表資料

現在3年目を迎えた大型プロジェクトについて紹介し、プロジェクトで取り組むくずし字とはそもそもどういうものでなぜ読むのが難しいのか、それが判読可能となることで拓ける世界について紹介したい。

日本古典籍字形データセットの公開と活用への期待

発表資料

2016年11月に公開した「日本古典籍字形データセット」(くずし字1,521文字種の字形データ86,176文字)について、データセットの特徴と利用方法を紹介するとともに、機械と人間を賢くするためのデータセットとしての期待を述べる。

電子くずし字字典データベースにおける現状と展望

発表資料

東京大学史料編纂所は2006年より電子くずし字字典データベースを公開している.本報告では該当データベースの開発経緯,システム概要およびシステム運用等の現状,さらに今後の展望についても述べる.

木簡文字への文字認識技術の応用

発表資料

手書き文字認識で利用される技術を活用した字形検索Webサービス「MOJIZO」について紹介する。古文書情報検索を目標とした取り組みの一つとしてご覧いただきたい。

くずし字の学習支援と市民参加翻刻

発表資料

くずし字で書かれた大量の文献をテキスト化する「人間の力を利用したアプローチ」として、くずし字の学習支援アプリケーション「KuLA」と、市民参加型の歴史地震史料翻刻プロジェクト「みんなで翻刻」を紹介する。

講演者概要

山本 和明、国文学研究資料館

北本 朝展、情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター/国立情報学研究所

山田 太造、東京大学史料編纂所

耒代 誠仁、桜美林大学

橋本 雄太、京都大学

関連記事

CODHセミナー

2017-05-30

第3回CODHセミナー 人文学でのDOI活用 〜研究データや所蔵品など研究資源へのDOI付与〜

2017-02-10

第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜

2017-01-23

第1回CODHセミナー Big Data and Digital Humanities