無料OCRとして使えるGoogleドライブ
スマートフォン向けのいろいろなアプリのおかげで、画像から文字を取り出す「OCR」はかなり身近な存在になってきている。「名刺からアドレス帳に登録するデータを取り出す」「レシートから家計簿に登録するデータを取り出す」といった具合に、日々利用している人も多いだろう。
このOCRをもっと長い文章などで利用したい時、手軽に利用できるのがGoogleドライブだ。普段はGoogleドライブを利用していなくても、スマートフォンを利用するためにGoogleアカウントは作ってある人なら、すぐに利用可能だ。
用意するのは、中身を読み取りたいものの画像のみ。紙でしかデータが手元になければ、スキャンして電子データにしよう。スマートフォンのカメラで撮影してもよいが、スキャン用の補助アプリを利用するなど、できるだけきれいに撮影すると読み取り精度が高くなる。
画像をアップロードしてドキュメントとして開くだけ
用意した画像は、Googleドライブにドラッグ&ドロップでアップロードしよう。スマートフォンで撮影して、スマートフォンアプリを使ってアップロードしてもよい。アップロードが完了したら、読み取りたい画像を選択して上のメニューボタンか、画像ファイルを右クリックしたところから「アプリで開く」の中の「Googleドキュメント」を選択する。ユーザーが行う作業は、これで終了だ。
内容にもよるが、数秒から数十秒程度、変換のために待機画面が表示される。その後1ページ目に元の画像を貼り付け、その後ろに読み取ったテキストを入力したドキュメントが表示される。元画像がプレビューできないものだった場合は画像が貼り付けられず、テキストのみが表示される。
作成されたドキュメントは、通常のGoogleドキュメントで作成したものと同じく文字の選択やコピー、編集などが行える。
縦書きや2段組にも対応
画像からの文字変換は、元画像の状態などによってさまざまな結果になる。非常に大きな文字で表示されることもあれば、まるで新規ドキュメントを作成してテキスト入力したような画面になることもある。全体的に言えるのは、改行が無視されがちなことだ。行頭の空白なども消えてしまうことが多い。
それでも、読み取り結果は予想しているよりも正確だ。横書きだけでなく縦書きや、縦書きの2段組にも対応する。2段、3段組などの場合は段間に適切な空白がないと縦に突き通すように読んでしまって使えるテキストにならないこともあるから、極端に間が詰まっている時は画像作成時に分けるなどの工夫をするとよさそうだ。
PDFファイルも素材として利用OK
また、画像だけでなくPDFファイルも素材として利用できる。PDFファイルは、一見コピーできたように見えても、ペーストすると文字にならないもの、縦書きなのに横に文字を拾ってしまうもの、画像化されていて文字の選択ができないものなど、いろいろある。そうしたものをGoogleドキュメントを通してやれば、簡単にテキスト選択できるようになるのだ。
PDFは画像化したものを再度PDFにしたもので、文字選択が一切できないが、内容的には画像ファイルと同じものだ。
この状態で作成したテキストをざっと見てみると、縦書き一段のもので漢数字の「2」が記号になってしまっている一方で、2段組ではきちんと漢数字として認識されているなど、文字として同じ状態でも同じ文字に読み取られるとは限らない様子が見える。
また文中に出てくる難しい漢字は間違いが目立った。「金色の蕊」という部分の「蕊」が読み取れないようで、多くの読み取り結果で「恋」になっていた。中には「悲km」となったものもある。改行の直しなどとともに、全体を読み直しての手直しはやはり必要そうだ。それでも全体を手入力するよりは圧倒的に速く、楽でもある。入力ミスの度合いも人力といい勝負と感じた。
Googleドライブの容量に影響なし!
いくつかの変換を試してみるとわかるが、OCRとして読み取りを行ったGoogleドキュメントのファイルは「ファイルサイズ」の部分が「-」になっている。これは、Googleドライブ上で新規作成されたファイルは容量換算しないというルールが適用されているからだ。
アップロードした画像やPDFを削除してしまっても、当然作成されたドキュメントファイルは残る。容量を気にすることなく利用できる機能だから、どんどん積極的に使っていこう。