Google Docs、画像から日本語を抽出するOCR機能搭載

Create and edit web-based documents, spreadsheets, and presentations.

Googleは2月28日(米国時間)、Google DocsのOCR機能に新しく29のサポート言語を追加したことを発表した。この結果、Google DocsがサポートするOCR向け言語は34となる。今回の機能追加で日本語もサポートされるようになっており、日本語を含んだ画像やPDFをアップロードして、日本語テキストを抽出することができる。

OCRによるテキスト抽出の機能を利用するには、画像をアップロードする段階で「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」にチェックを入れて、言語として「日本語」を選択すればよい。画像とともに抽出されたテキストも表示されるようになる。


マイコミジャーナルに掲載された記事の画像	Google Docsで画像ファイルをアップロード。「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」にチェックを入れて、言語として「日本語」を選択


アップロードされたドキュメントには自動的に変換された旨が表示されているとともに、画像とテキストが両方共掲載されている。	この例ではあまり精度がいいとは言えないが、たしかに日本語テキストが抽出されていることがわかる。

それ相応の認識率を実現するには、OCRプログラムが認識しやすい画像を用意する必要がある。日本語OCRとして本格的に活用できるかどうかはわからないが、日本語のサポートが追加されたことは注目に値する。


読み取り率が高くなるように当幅で、さらにフォントサイズを大きくした画像を用意 - 夏目漱石の草枕より抜粋	さきほどの例に比べるとだいぶ認識率が高いことを確認できる。

Googleは2010年6月、Google DocsにOCR機能を追加。テキストが掲載された画像やPDFからテキストを抽出できるようにしていた。対応しているデータはJPEG、PNG、GIFおよびPDF。当初は英語、フランス語、イタリア語、ドイツ語、スペイン語に対応し、日本語は対応していなかった。