凸版印刷は4月25日、江戸期以前のくずし字(ひらがな、カタカナ、漢字を崩して書いた手書き文字)で記されている歴史的資料の利活用を促進するビューア「ふみのは」を開発。2017年5月から、本ビューアを用いた公開用データ制作サービスの提供を開始すると発表した。

同社ではくずし字で書かれた古典籍(江戸時代以前に作られた、内容・形態の優れた書籍)の文字を判別し、テキストデータに変換する光学文字認識(OCR)技術を2015年に確立。

今回、開発したビューアは一般的なWebブラウザにおいて、歴史的資料の原本画像の上に翻刻(古典籍などの古い文献を現代の活字などを使い、一般に読める形式にすること)や多言語翻訳文を重ねて表示することが可能なため、原本の持っている雰囲気を損なうことなく、くずし字で記された文字を読み進めることができる。また、現代語訳や外国語訳などを切り替えて表示することも可能。

「ふみのは」の表示サンプル

また、従来の原本画像と翻刻文の画像を重ねて表示する方法とは異なり、翻刻文をテキストとして扱えるため、インターネットからのテキスト検索や、Webブラウザからコピー&ペーストなどの活用ができるという。さらに、HTMLやCSSなどの標準的なWeb技術のみで構成されているため、配信のための専用システムや維持管理コストが不要で、ビューア用のデータ制作後、迅速な公開を可能としている。

そのほか、ビューア用データ制作時に採取されるくずし字の字形データセットをくずし字OCRで活用することにより、同系統の字形で書かれた歴史的資料の翻刻作業効率化が図れるという。

これらにより、くずし字で書かれた歴史的資料がテキストデータとして扱えるようになり、全国各地に眠る貴重な歴史的資料の利活用の推進が可能になる。また、観光立国の実現に向け同社が従来提供する、訪日外国人の旅の質と利便性向上を目指す「旅道」(たびどう)プロジェクトの活動とも連携し、地方創生に向けた観光地域づくりやインバウンドビジネスなどへの活用にも取り組んでいく方針。

製作から公開までのワークフロー

なお、同ビューアは早稲田大学坪内博士記念博物館の演劇映像学連携研究拠点「特色ある共同研究拠点の整備の推進事業(演劇映像学連携研究拠点)機能強化支援」の一環として、4月25日に公開した字形データセットの公開手法として採用されている。今後、くずし字判読技術の習得補助や翻刻作業効率化の研究に活用される予定だ。

価格は2000円/ページ(原本画像およびテキストから、ビューア用のデータ生成、原本のスキャニング、目視またはくずし字OCRよる翻刻、現代語訳、Webサーバ構築費用などは別途)~。今後、資料の撮影やOCRなど高精度全文テキスト化サービス事業を推進し、2019年度に約10億円の売り上げを目指す。