米GoogleのSteve Souders氏は3月30日(米国時間)、主要Webサイトのコンテンツを自動分析してレポートする新しいサービス「HTTP Archive」を開始したことを発表した。
HTTP ArchiveはAlexa、Fortune 500、Quantcastなどのいくつかのデータをベースに主要トップサイト約17,000を選出し、コンテンツの分析結果を報告するサービス。HTTP ArchiveのプログラムそのものはOSSのもとで公開され、分析後のデータもダウンロードできる。
HTTP Archiveに掲載されているデータは2010年10月から収集されたものと説明があり、今後2週間おきにアップデートするとされている。実際のWebページでどういったコンテンツが使われているか知ることは、高速に動作するWebアプリケーションやサーバシステムを開発する上で有益なデータとして活用できる。HTTP Archiveで公開されるデータはひとつの検討資料として価値があるとみられる。
分析結果によると、各ページのデータ容量の6割は画像が占めていることになる。画像はJPEGが4割を超え、GIFが4割弱、PNGが2割弱。6割を超えるページでGoogle Analyticsが活用されているほか、JavaScriptライブラリとしてはjQueryが高いシェアを持っていることがわかる。