すべての書物のデジタル化を目指すGoogle。そこで最初に直面する問題が「一体この世界には、どのくらいの数の印刷書物が存在するのか?」だ。この大きな疑問にGoogle Booksチームが挑んできた過程をソフトウエア・エンジニアのLeonid Taycher氏がブログで公開した。

書物をどのように数えるか? Googleでは本のメタデータを扱う際に"tome"(書物、学術書)を1つの書物の基準としている。数百万コピーが存在するベストセラーも、数コピーしか存在しない学術書も1つと見なす。この定義はISBN(国際標準図書番号)に近い。ただしISBNが幅広く採用されはじめたのは70年代半ばからであり、商業的な流通で提供される書物に限られる。またISBNがCDやTシャツなど本以外の製品にも割り当てられていることがある。Library of Congress Control Number(LCCN)やOCLCなどの識別番号も価値のあるデータだが、シリーズで1つにまとめられていたり、図書館の目録作成方法の違いから1冊の本に複数の番号が存在したりする。本のタイトル数を直接導き出せるデータはなく、様々なデータを収集し、それらを分析し組み合わせながら答えを推定するしかない。

Googleはまず図書館やWorldCatなど150以上の組織・団体からメタデータを収集した。この時点でレコード数は10億件近くになったが、各プロバイダにおけるレコードの明らかな重複を解消すると6億件近くに減少した。しかし、まだまだ数多くのレコードの重複が残っている。例えば「Programming Perl, 3rd Edition」は46プロバイダから96レコードが存在した。

続いて各レコードのすべての属性を参照し、レコードを書物のクラスタにグループ化する作業を週2回のペースで繰り返した。類似性のあるレコードを判断する上でISBNは信用度の高いデータになる。複数のレコードでISBNが同じならば、同じ本である可能性が高い。逆にタイトルや著者名、出版社名のような自由に入力できる種類のデータは信用度を引き下げた。例えば、同じ本でも目録上の出版社名が「Ballantine Books」、「Beagle Books」というように全く異なっていたりする。これはBallantineがBeagleホラーコレクションの一部として出版したためと考えられるが、原因を想像できないケースも数多く見られるという。読者がタイトルや出版社名などを頼りにすることが多いにもかかわらず、目録製作者は正確で整合性のある記録を重んじてこなかったようだ。

このようにアルゴリズムを調整しながら、継続的にデータを追加し、グループ化の実行を繰り返してきた結果、現時点でクラスタ数は2億1000万となっている。これらからマイクロフォームやオーディオ、ビデオ、地図、書籍以外の製品(CD、Tシャツなど)を除いて印刷書物のみに絞り込むと約1億4600万になる。この段階でも逐次刊行物については不完全なままだ。例えば同じ巻でも「volume 325, number 6」「V325NO6」「no.325 sec.6」など様々な表記で記録されており、正確な数字を把握できる政府ドキュメントを参考に逐次刊行物の誤差を修正した。

結果2010年8月1日時点で、Googleは世界に存在する本の数を129,864,880タイトルと推定している。