凸版印刷は、紙の文献や資料を、精度99.99%以上かつ短納期で全文テキストデータ化する「文献・資料の高精度全文テキスト化システム」を開発したと発表。7月下旬より、このシステムを用いたサービスの提供を開始する。

文献・資料の高精度全文テキスト化システム

同システムは、凸版印刷の文字・テキスト処理技術と、IBM基礎研究所が開発した共同校正技術を組み合わせて作られたもの。印刷された文献や資料を光学文字認識(OCR)でテキストとして読み取り、そのデータの精度を統計処理などにより補完。さらに、共同校正により確認・修正を行ったのち、最後に目的に応じた文字・テキスト処理、各種フォーマットへの変換処理を行う。

このシステムによって、高品質化と作業時間の短縮を両立させることに加え、ルビや傍点、縦中横、和欧混植、割り注など、従来のOCRが苦手としていた複雑な日本語組版にも対応する。難読文字を効率的に確認・修正するためのサポート機能を強化することで、従来のソフトウェアでは対応が困難だった古い資料のデジタル化も可能。旧字・旧かな遣いから現代の新字・新かな遣いへの変換サービスも提供する。

また、デジタルデータが存在しない過去の印刷物(底本)からの電子書籍制作や、データ化されていない資料(新聞、雑誌、社内報、契約書など)のデジタル化などに向け、同システムを利用した高精度な全文テキスト化サービスを7月下旬より開始する。データの書き出し形式は、プレーンテキスト、XML(構造化文書)、透明テキスト付PDFの3種類。年代、保存状態、ページ数などにより価格は変動するが、書籍から透明テキスト付PDFを作成する場合、参考価格は1冊3万円~となっている。なお、このサービスは、7月5日まで東京都・東京ビッグサイト西4ホールで開催される「国際電子出版EXPO」のトッパンブースで展示される予定だ。