米Googleは9月16日(現地時間)、CAPTCHAサービスを無料提供するreCAPTCHAの買収を発表した。reCAPTCHAの詐欺・スパム対策機能をネットユーザーが利用すると、印刷文字のデジタルテキスト化に協力することになる。テキストスキャニング・プロジェクト向けのユニークなソリューションを持つ。

CAPTCHAは、文字や数字を記した画像を表示し、それを読み取れるかで人間とbotを判別するプログラムだ。ブログ記事へのコメント、チケット購入の予約など、各種ネットサービスがスパム・プログラムに利用されるのを防ぐ。CAPTCHAの文字や数字は機械が読み取れないように、歪められていたり、横線が入れられるなど様々な加工が施されている。reCAPTCHAは、この「機械が読み取れない文字を人間が読む」というCAPTCHAのプロセスを利用して、機械が読み取れなかった印刷文字を人間に読んでもらっている。同社のCAPTCHAサービスのロゴには「stop spam. read books.」(スパムを防いで、本を読もう)と書かれている。

reCAPTCHA。ロゴの下に「スパムを防いで、本を読もう」

reCAPTCHAのCAPTCHAサービスでは2つの単語が表示される。どちらも印刷物からスキャンされたものだが、reCAPTCHAが正しいスペリングを把握している単語は1つだけで、もう1つはOCRプログラムで正しく読み取れなかったと警告された単語である。ユーザーはどちらの単語も入力する必要があるものの、詐欺・スパム対策の確認に用いられるのは1つだけ。もう1つはOCRの結果の修正になる。正確を期すために、スペリングが分かっていない単語は複数のユーザーに示し、それらの入力を総合して正しいつづりを判断する。

買収を明らかにした公式ブログでGoogleは、「プレインテキストは検索対象になり、簡単にモバイル・デバイス向けにレンダリングでき、そして視力障害者向けの音声読み上げ機能に用いられる。ドキュメントのテキスト版を用意するのは重要だ」としている。さらに、reCAPTCHAのサービスが「Google BooksやGoogle News Archive Searchのような、大規模なテキストスキャニング・プロジェクトにも用いられている」と指摘。今後reCAPTCHAのテクノロジを同社の詐欺・スパム対策、そして書籍や新聞などのスキャニング・プロセスの改善に利用するとしている。

reCAPTCHAによると、ネットユーザーは1日に2億個のCAPTCHAを解いている。1つを10秒程度とすると、CAPTCHA解読は1日15万時間以上の労働力に相当するそうだ。