米GoogleのWeb Search InfrastructureチームのJesse Alpert氏とNissan Hajaj氏によると、同社のシステムが把握しているWebの規模が独立したURL数で1兆(1,000,000,000,000)の大台を突破した。
同社はWebページをインデックス化する上で、多くのリンクが張られたページを中心にリンクの先をたどり続けて新たなページを見つける作業を繰り返しながら、膨大なリンク情報を蓄えてきた。その数は1兆を大幅に上回るが、それらの全てが独立したWebページへとつながっているわけではない。同じコンテンツやURLから自動生成されたコピーが複数のURLとなっているケースが多く、そのような重複を取り除いた上で、なお1兆を超えるユニークなURLが確認されているそうだ。
1998年に2600万ページだったGoogleインデックスは2000年には10億に到達した。Web拡大の勢いはすさまじく、今や1日に数十億ページのペースで増加しているという。世界中のあらゆる情報の整理に挑むGoogleだが、Webの世界に存在する独立したページの総数については「分からないし、全てを把握するには時間が足りない。厳密に言えば、現存するページ数は無限なのだ」(Alpert氏/ Nissan Hajaj氏)という。例えばWebカレンダーが翌日にリンクされていれば、未来へのリンクが永遠に続いていくことになる。「現実的にはWebのサイズは実用的なページの規模となるが、それもユーザーごとに定義が異なるから明確な答えは存在しない」(同)。
Googleは1兆ページすべてをインデックス化してはいない。似かよったコンテンツがあれば、Webカレンダーのような自動生成コンテンツもあるためだ。それでも「あらゆる検索エンジンの中でもっとも広範囲にわたるインデックスである」(同)という。
初期の頃は1台のワークステーションが数時間をかけて2600万ページのPageRankグラフを処理し、そのデータを一定期間インデックスとして用いた。すべてのプロセスを定期的に繰り返す作業だった。今日では、Webページを継続的にダウンロードし、アップデートされたページの情報を収集しながら、1日に何度かWebリンクのグラフ全体を処理し直すことで膨大な情報を維持し続けている。1兆のURLで構成されたWebグラフは「1兆の交差点のある地図のようなものだ」(同)という。その数は米国の交差点の50,000倍に相当し、Googleは1日に何度もその全体を探索している。