そあん(soan)

そあん(soan)は、現代日本語テキストをくずし字画像に変換し共有できるサービスです。日本の出版史上もっとも美しい書物の一つと言われる「嵯峨本」の古活字を素材として、誰もがデジタル組版できるソフトウェア/サービスを提供します。

そあん(soan)に関する情報をシェアする際には、ハッシュタグ「#soan」をお使いください。

X (Twitter) - #soan

くずし字変換サービス

サーバ共有版

下のボックスにテキストを入力してください。テキストをサーバに送信し、古活字データセットを用いてくずし字画像を生成し、他者と共有できるようにウェブサイトで公開します。約15文字で改行する設定です。

サンプル:

なお、そあん(soan)で生成した画像は、自由に利用可能です(参考:ライセンス)。

ブラウザ完結版

画像の生成方法をより細かく制御しながら、ウェブブラウザ上で古活字組版画像を生成します。テキストや画像はサーバに送信しませんので、プライバシーを保護することができます。

そあん(soan)ライブラリのデモ

プロフェッショナル版

くずし字画像の生成をさらに詳細に指定できる「プロフェッショナル版」は、字母・連綿、形態素解析の切れ目を指定する機能や、テキストを古文(中古和文)としてサーバ側で形態素解析する機能などを備え、専門家のより高度なニーズに対応しています。

そあん(soan)プロフェッショナル版(@2SC1815J氏作成)

LINEボット版

サーバ共有版と同様の仕組みを使いつつ、LINEボットとして動作します。LINE内で対話的にくずし字画像を生成し、共有することができます。

そあん(soan)ボット - LINEでくずし字トーク

各サービスの比較

各サービスの比較は、以下のようになります。

サービス ユーザ設定 データ送信
サーバ共有版 おまかせ(設定変更不可) サーバにデータを送信し、画像を共有可能
LINEボット版 おまかせ(設定変更不可) サーバにデータを送信し、LINE内で表示可能
ブラウザ完結版 画像の生成方法を設定可能 サーバにデータを送信せず、プライバシー保護可能
プロフェッショナル版 画像の生成方法だけでなく、くずし字の選択方法も設定可能 サーバにデータを送信せず、プライバシー保護可能(サーバにデータを送信し、付加サービスを受けることも可能)

ライブラリのアプリ化

現代のニュースをくずし字で読んでみませんか?内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。

edomi ニュース

その他の事例については、活用事例を参照してください。

構成

古活字とくずし字

そあん(soan)で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写本などの手書きの文字(草書体)も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。

そあん(soan)は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービスです。その他の画像を組み合わせてくずし字画像を生成するサービスについては、関連サービスもご覧下さい。

古活字データセット

古活字データセットとは、古活字を用いて印刷された古典籍の画像から、古活字の物理的なブロックを推定するとともに、ブロックに書かれた文字の読みと字母を付与したものです。古活字の特徴は、くずし字の連綿(続け字)を再現するために、2文字以上の複数文字が続けて書かれた活字ブロックが存在するという点にあります。そのため、当時の活字ブロックを推定するには、連綿を切らないように文字列を分割するアルゴリズムが必要です。

そこで、AIくずし字認識モデルRURIを活用し、RURIが出力する文字の矩形情報を基に、文字の連綿を分析することで、古活字ブロックの分割位置を推定しました。さらに翻字にRURIの認識結果を使い、未修正古活字データセットを作成しました。ただしRURIによる翻字には誤りも含まれています。そこで、専門家が翻字結果を修正し、字母情報も付加することで、字母を考慮したデジタル組版に利用可能なデータセットを構築していきます。この作業が完了すると、最終版の古活字データセットの完成となります。この古活字データセットを、オープンデータとして配布しています。詳しくは以下をご覧ください。

古活字プロジェクト

そあん(soan)ライブラリ

そあん(soan):古活字画像を用いて現代日本語テキストを描画するライブラリは、古活字データセットの古活字画像を用いて現代日本語テキストを描画するJavaScriptライブラリです。このライブラリの特徴的な機能は以下の通りです。

  1. 古活字データセットに含まれる文字の古活字画像を適切に選択
  2. 古活字データセットに含まれない文字に対しては、代替画像を適切に選択するか代替フォントで描画
  3. 変体仮名の使い分けに対応
  4. 連綿(続け字)活字に対応
  5. 現代の組版習慣を参考に、禁則処理(行頭禁則・行末禁則・分離禁止)や行の調整処理(空け処理・詰め処理)などに対応

機能2に関して、読みを推定してひらがなで描画する場合があります。推定した読みの正しさについては、画像生成に用いた「画像テキスト」で確認してください。

機能3に関して、古活字に登場するひらがなについてはUnicode変体仮名一覧を参照してください。当時のひらがなは、現代のひらがなと比べて、字母の種類が多い点にご注意下さい。変体仮名の使い分けについては、今後さらにアルゴリズムを改善する予定です。

なお、本ライブラリを活用したそあん(soan)ライブラリのデモは、ブラウザ上のみで画像を生成でき、プライバシーを保護できるというメリットがあります。

そあん(soan):古活字画像を用いて現代日本語テキストを描画するライブラリ

そあん(soan)サービス

そあん(soan)ライブラリの応用例となるのがそあん(soan)サービスです。入力ボックスに現代日本語を入力すると、そあん(soan)ライブラリを用いて、テキストを描画したくずし字画像を生成します。またその画像をウェブサイトで公開し、他者と共有できます。このサービスには、以下の注意点があります。

  1. 入力したテキストが同一であっても、古活字の選び方しだいで生成画像は異なります。同一の画像を再び生成することはできませんので、お気に入りの画像があれば、ユーザ自身で保存してください。
  2. 本サービスで生成した画像は、URLを知っていれば誰でもアクセスできる状態で公開します。ただしURLを知らない状態でそれを推定することは困難です。逆にURLを忘れてしまうと、生成した本人もアクセスできなくなりますので、ブックマーク等を用いたURLの保存を忘れないでください。
  3. 本サービスは、ユーザが生成した画像をウェブサイトで一時的に共有する機能を提供しますが、画像の永続的な保存は保証しておらず、ユーザへの予告なく削除することがあります。保存が必要な画像については、ユーザ自身がダウンロードして保存してください。

なお、くずし字画像をサーバ側で生成する際には、そあん(soan)ライブラリをDockerコンテナとして動作させ、API経由で画像を生成しています。

ライセンス

生成画像のライセンス

そあん(soan)ソフトウェアを利用して生成した画像は、自由に利用可能であり、出所の明示は要求しません。ただしサービス名やURLなどを明記できる場合は、ご協力をお願いいたします。

古活字データセットのライセンス

古活字データセットをご覧ください。

プライバシーポリシー/利用規約

そあん(soan)サービスのご利用にあたっては、プライバシーポリシー/利用規約もお読みください。

目的

古活字版とは、16世紀末に西欧と朝鮮半島から伝えられた活字印刷の技術に基づき出版された本を指します。16世紀末から17世紀中頃までの約50年間、古活字を用いた本が印刷されました。しかし、その後は活字ではなく板木を使う木版印刷が主流となったため、今も残る古活字の実物は非常に少なく、印刷技術としても多くの謎が残っています。そこで、古活字データセットを活用し、活字の組み方(組成)や版面を情報学的に分析することで、日本の印刷史の謎を解明していく研究を進めていきます。

それに加えて、古活字データセットを現代の人々が活用できる形に発展させることも重要な課題です。貴重書として大事に扱われてきた古活字版は、かつての日本で作られた古活字を現代に伝えています。これをデジタル化し、活字単位で断片化し、デジタル組版によって再構成するという、古活字の新しい利用方法を開拓するなど、現代と過去の距離を縮めるデジタル技術を開発していきます。

活用事例

教育

これまでも、くずし字の学習を支援する仕組みはいろいろと提案されてきましたが、そもそもくずし字を読むのが難しい理由は、以下のようにいくつもありました。

  1. 文字と内容の両方を同時に解読する必要がある
  2. 内容の解読には古文の文法や語彙も必要となる
  3. 内容の理解にはさらに背景知識も必要となる
  4. 内容自体に興味が持てないと、すべての課題を乗り越える動機が高まらない

それに対して、「edomi 学び」では、自分が読みたいテキストをくずし字に変換できます。この場合、文法や語彙、背景知識も含めて内容が事前に理解できているため、内容が既知のくずし字テキストを読むという、新しいくずし字の学び方が生まれます。そして、文字と内容の学習を分離しながら、文字の学習に集中できるようになります。

コミュニケーション

くずし字の日常化による普及を進めるためには、コミュニケーションツールとして面白く使えることが重要です。そあん(soan)サービスを使えば、生成画像を友達とウェブ上で共有し、くずし字で書かれたコンテンツをネットワーク的に拡散することが可能です。このように、現代の人々がくずし字を用いて日常的なコミュニケーションを行えるデジタルツールを開発することは、今後のくずし字教育と普及にもつながると考えています。

その一つの例として、そあん(soan)ボット - LINEでくずし字トークを公開しています。そあん(soan)ボットは、くずし字を現代のコミュニケーションに取り入れるための実験でもあります。LINEボットという身近なメディアに、くずし字という過去の文字を取り入れたとき、どのような新しい使い方が生まれるでしょうか?LINEボットがくずし字をコミュニケーションツールとして再生するきっかけになれば面白いと思っています。

プル型サービスとプッシュ型サービス

上記のサービスは、ユーザが能動的にテキストを入力し、くずし字画像を生成するという「プル型」のサービスです。一方、システム側が自動的にくずし字画像を生成し、ユーザは受動的にそれを受け取るという「プッシュ型」のサービスも考えられます。後者の方が、ユーザにとって楽ですし、学びの幅を広げるためにも有効であると考えました。

そこで、「edomi ニュース」というプッシュ型のサービスを提供します。これは、現代の最新ニュースをくずし字に自動変換して表示するサービスであり、定期的に更新されるくずし字画像を読みながらくずし字に親しむことができます。

画像生成

画像生成手法の比較

そあん(soan)は、現実の画像データを組み合わせ、現実には存在しない画像を生成する仕組みです。最近は画像生成の仕組みがいろいろ登場していますが、他の画像生成手法と比べて、そあん(soan)の画像生成手法には以下の特徴があります。

  1. AIを用いた画像生成のように、データセットの学習結果に基づき新たな画像を生成する手法とは異なり、そあん(soan)は実際の本をデジタル化した画像を断片化し、組み合わせ、合成するという、コラージュ技法に近い手法を用いています。
  2. フォントを用いて画像を生成する場合、多くのフォントではUnicodeの各文字に対して字形を一つしか持たないため、入力テキストが同一ならば生成画像も同一となります。一方古活字データセットは、Unicodeの各文字に対して実際の本に出現した複数の字形を有しているため、入力テキストが同一であっても、字形の選択に依存して生成画像も異なることになります。
  3. 文字レイヤを背景レイヤに重ねて描画する手法ではなく、文字と背景が一体化した画像を組み合わせる手法のため、背景だけを透明化することはできません。

コンピュータ生成画像を示すメタデータ

ただ、現実には存在しない古活字資料(偽書)の画像を偽造できるという点では、社会的な議論となっているAI画像生成と共通する課題があります。そこで、コンピュータが生成した画像であることを明記するメタデータを、生成画像に埋め込むことにしました。具体的な方法は以下の通りです。

  1. IPTC Photo MetadataのDigital Source Type項目に、合成要素を含む複合的な画像を表す「compositeSynthetic」という値を指定する。
  2. IPTC Photo MetadataをXMP(Extensible Metadata Platform)形式のメタデータとして、JPEG画像のヘッダに埋め込む。

これにより、コンピュータが生成したフェイク画像であることを機械可読形式で利用者に明示するとともに、AIの学習データの「汚染」を防ぐ余地を残します。

画像生成と画像認識

現代日本語テキストをくずし字画像に変換する「画像生成」は、くずし字画像を現代日本語テキストに変換する「画像認識」とは逆の役割を果たすものです。画像認識については、以下のサービスもご覧下さい。

みを(miwo):AIくずし字認識アプリ

AIくずし字OCRサービス

edomi 学び

再現と再生

そあん(soan)は、文字としては古活字版から取り出した過去の文字を主に使いますが、組版としては現代の日本語表記に対応した方法を用います。そのため、そあん(soan)による生成画像は、過去を反映した要素と現代を反映した要素が混在する、いわば過去と現代のハイブリッドとなっています。このようなハイブリッドは、過去の再現ではなく、過去の遺産を現代でも活用可能な形に再生する方法論として有効だと考えています。

同様の例に、江戸料理レシピデータセットがあります。これも、過去の料理の再現ではなく、江戸の料理を現代の生活に取り入れることを目的としています。そのため、当時は存在しなかった素材や道具などもレシピに取り入れ、現代の人々にとって使いやすくなるような改良を加えています。

現代の人々が使う日本語テキストを過去の文字で表現する場合も、過去には使わなかった文字(アルファベットや句読点、絵文字等)をどう取り入れるかが重要な課題となります。そこで、そうした文字を含む現代日本語表記に対応できる組版ロジックを開発することで、この課題に対応することにしました。そあん(soan)は、過去の古活字版の再現(例えば「嵯峨本」の再現)ではなく、過去の古活字版の遺産を現代の人々が活用できる形式に再生させるためのソフトウェアといえます。

由来

「そあん」は、江戸時代初期に活躍した角倉 素庵(すみのくら そあん)(1571-1632)に由来します。彼は江戸時代の初期に京都嵯峨で出版業に関わった代表的存在です。また彼が主導して出版された古活字版の本である「嵯峨本」は、日本の出版史上もっとも美しい書物の一つであり、日本の書物文化の粋とも言われています。

参考

  1. 小秋元 段, 嵯峨本とは何か, 国立国会図書館月報, 747/748号

メンバー

基幹研究プロジェクト 異分野融合による総合書物学の拡張的研究のメンバーを中心に、以下の分担で進めています。

総括・そあん(soan)サービス
北本 朝展(ROIS-DS人文学オープンデータ共同利用センター)
そあん(soan)ライブラリ
本間 淳(フェリックス・スタイル)
古活字データセット
カラーヌワット・タリン(Google DeepMind)、常田 槙子(早稲田大学)
「総合書物学」プロジェクト 協力者
木越 俊介、松永 瑠成(国文学研究資料館)、小秋元 段(法政大学)

研究費

  1. 文字を介した視覚的コミュニケーション基盤の創成, 科学研究費 基盤研究(A), 研究代表者 内田 誠一
  2. 歴史ビッグデータ:史料とデータ駆動型モデルを結合する分野横断型研究基盤の構築, 科学研究費 基盤研究(A), 研究代表者 北本 朝展
  3. AIによるテキスト化に関わる総合的研究・検索機能の向上化と古典籍の研究活用研究, 国文学研究資料館研究 開発系共同研究, 研究代表者 北本 朝展

くずし字画像を生成するサービスは、そあん(soan)以前にもありました。以下は、木版印刷の版本や手書きの写本から作成された日本古典籍くずし字データセットを活用したサービスです。

  1. くずし字、いろいろ

このサービスとそあん(soan)の大きな違いは、前者が一般的なくずし字画像をコラージュしているのに対し、後者は古活字画像をコラージュしている点にあります。古活字画像をコラージュする方法には、1)文字の大きさの単位が揃っているため組み合わせやすい、2)連綿(続け字)が使える、などの利点があります。

またくずし字の仮名(変体仮名)については、Unicodeに定義されている文字については変体仮名フォントが利用できます。こうしたフォントでくずし字テキストを生成することもできますが、仮名しかない、連綿ができない、などの制限があります。

その他、くずし字に関するさまざまなアプリについては、くずし字アプリ・サービス(検索/認識/解析/解読)をご覧ください。

参考文献

  1. 北本 朝展, 本間 淳, カラーヌワット タリン, "そあん(soan):古活字データセットを用いた現代日本語テキストからくずし字画像への変換と共有", 人文科学とコンピュータシンポジウム じんもんこん2023論文集, pp. 51-58, 2023年12月

ニュース

2024-11-02

サーバ共有版およびLINEボット版が、10/11から不具合を起こしていた問題に対応しました。

2024-04-01

そあん(soan)ボット - LINEでくずし字トークを公開しました。

2024-03-30

生成画像の変換テキストが想定と異なる場合、テキストを編集して新たに画像を生成する機能を追加しました。

2023-12-06

そあん(soan)ライブラリをバージョン1.1に更新し、料紙選択機能の追加や連綿活字の選択ロジックの改善、変体仮名の使い分けロジックの改善などを行いました。また、専門家の高度なニーズに応えるために、そあん(soan)プロフェッショナル版(@2SC1815J氏作成)を公開しました。

2023-10-03

古活字プロジェクトの成果として、古活字データセットを公開しました。

2023-08-16

古活字とくずし字の関係に関する説明を追加するとともに、サービスの説明も明確化しました。

2023-08-07

そあん(soan):現代日本語を古活字(くずし字)に変換するサービスおよびそあん(soan):現代日本語を古活字(くずし字)で描画するライブラリを公開しました。また「そあん」の応用例として、edomi ニュースおよびedomi 学びを公開しました。