紙書類をスキャンしたPDFがPCの中にありませんか? Acrobatでは、紙文書をスキャンしてPDFの内容からテキストを認識してテキストデータを付加できます。テキストデータがあれば検索も可能になり、文書管理にも好都合です。今回は、紙文書PDFのテキスト認識機能を紹介します。
紙文書のPDFからOCRでテキスト認識する
紙文書から作成したPDF。近頃の複合機には、スキャンしたデータをPDFで保存する機能もあるので、ますます増えているようです。
ペーパーレス化には一役買っていますが、データとして考えるとどうでしょう。紙文書のスキャンPDFは、言い換えれば画像データをPDFでまとめてあるだけともいえます。そのため、PDFとして保管しておいても、ファイル名以外に検索する術がありません。
そこでAcrobatのOCR機能(テキスト認識)を使い、画像化された文字からテキストデータを作成しておきましょう。OCRとは、Optical Character Readerの略で、画像となってる文字の形状を読み取って、文字データに変換する機能です。Acrobatには、高精度のOCR機能が付いています。
たとえば、つぎのPDFは紙文書をスキャンして作成したPDFです。何も処理していないので、「テキストと画像の選択ツール」でドラッグしても、テキストは選択されません。
では、テキスト認識をしてみましょう。[ツール]パネルを開き、[テキスト認識]の[このファイル内]をクリックします。
[テキスト認識]ダイアログボックスが表示されるので、「すべてのページ」を選択して「OK」をクリックします。「編集」ボタンをクリックすると、PDF出力形式や画像のダウンサンプル解像度などを変更できますが、初期設定のままでかまいません。英語文書など、日本語以外のPDF文書のときは、言語を変更してください。
処理が終了したら、再度「テキストと画像の選択ツール」でドラッグしみましょう。今度は、テキストが選択されました。
AcrobatでOCRを実行すると、文字画像の上にテキストデータが作成されています。このテキストデータは透明なので、あたかも紙文書の文字がそのままテキストデータになっているように見えます。
ためしに、簡易検索(Ctrl+F)で文字を検索してみます。ここでは「Acrobat」と検索しましたが、ちゃんと検索されて反転表示されます。
テキスト認識できなかった箇所を検索
ただし、OCR機能なので、テキスト認識できない箇所もあります。これは、スキャンした際の紙の傾きや、印刷物の汚れなども影響します。
どこが認識されなかったかは、ツールパネルの[テキスト認識]の「OCR不明テキスト」で検索できます。ここでは[最初の不明テキストを検索]を使ってみます。
「エレメントを対象」ダイアログボックスが表示され、OCRでテキスト認識されなかった箇所が画像で表示されます (1)。同時に、PDF文書内の該当箇所がハイライト表示されます(2)。
PDF文書のハイライトされた部分をクリックすると、文字を入力できる状態になります。ここで画像を見ながら正しい文字を入力して修正できます。
正しいテキストを入力したら、「エレメントを検索」ダイアログボックスで[確定して検索]をクリックします。次の認識できなかったテキストがハイライト表示されるので、同様の手順で修正できます。
テキスト認識のメリット
紙文書のPDFも、テキストデータが作成されていれば、Windowsのファイル検索で検索対象となります。ファイル名だけでなくPDFの内容でも検索できれば、PDFの利用価値はさらに上がるはずです。
また、テキストデータがあれば、しおりを作成することもできます。注釈ツールを使ってコメントを入れるのも簡単になります。
テキスト認識のメリットは大きいはずです。
作成メニューの「スキャナーからPDF」はさらに便利
今回は、すでにPDF化された紙文書をテキスト認識しましたが、Acrobatには、「作成」メニューの「スキャナーからPDF」という、スキャナと連動してスキャンしてPDFを作成するメニューコマンドが用意されています。このコマンドは、スキャニングしてPDF作成し、さらにテキスト認識まで一気に行える便利なものです。
自分のPCで自由に使用できるスキャナがあるなら是非試してみてください。