TISは5月24日、仕様書・研究論文・設備点検報告書などの紙文書をデジタル化し、キーワード検索にて文書の必要箇所を早期に発見することを可能にする「文書アーカイブDXサービス」を提供開始すると発表した。同サービスでは、紙文書のデジタル化、AI OCRで記載されている画像・文字をテキスト化する。
アーカイブ文書として紙で保存・保管している資産をデジタル化することで、今まで文書捜索に要していた時間の短縮と、過去に実施した研究結果の活用や重複研究の防止、情報共有による技術伝承などに役立てることができる。
同社グループが提供する紙文書のスキャニングプロセスをアウトソーシングできる文書スキャンBPOと、あらゆるフォーマットから文字箇所を定義せずにOCRすることが可能なTISのPaperoidの「ドキュメントAI-OCRサービス」を組み合わせ、一気通貫で提供するという。
同サービスの特徴としては「紙文書の電子化(PDF化)から対応が可能」「文書画像の文字箇所をAIが自動認識」「キーワード検索が可能」がある。
同サービスでは、読取箇所の定義をAIが自動で認識するため、OCR化する文字の範囲を手動で指定する必要がなく、対象の原本PDFに含まれる文字をすべてテキストデータにすることができる。
また、Paperoid上だけでなく、読み取った文書画像データを出力するとPDFに透明テキストとして埋め込まれるため、ファイル自体から直接キーワード検索することが可能。