SitePoint: New Articles, Fresh Thinking for Web Developers and Designers

Webサイトのアクセス数ほどWebサイトの魅力をわかりやすく示す数値はない。Webサイトへの投資を判断するにせよ、対象とするWebメディアへ広告を出すかどうかを検討するにせよ、そのWebサイトのアクセス数という指針はわかりやすく、そしてなによりもまして強力な説得力を持っている。

しかしそこには落とし穴もある。単純な折れ線グラフの推移だけを判断の材料にするのは危険をともなう。Webサイトの統計報告にはどういった問題があり、何に気をつけるべきかという話がSitePointにおいて次の3部作としてまとめられている。いくつかの統計方法の利点と欠点をまとめ、どういった点に注意すべきかが簡潔にまとめられており参考になる。

紹介されている統計方法とその利点、欠点は次のとおり。

サーバサイドでのデータ収集と分析

サーバサイドでのデータ収集と分析の特徴と利点
ファイルに対するリクエストごとにログをとる
クライアントサイドで利用されている技術に関係なくリクエストを記録できる
どのファイルがどの程度ダウンロードされているかが明確にわかる
パフォーマンス分析やボトルネック分析に活用できる
Webサーバではログを記録する設定がデフォルトであるため、過去のアクセスデータから分析もできる
サーバサイドでのデータ収集と分析の問題点
アクセスしているユーザのデバイス、利用している本当のブラウザ、ディスプレイ解像度、採用されている技術(JavaScriptかFlashか)などを判断できない
NATを経由してインターネットにアクセスしている大規模組織など、実際にはどの程度のユーザがそのIPを共有しているのかがわからない
インターネットを成り立たせるために不可欠なキャッシュだが、これを検出できない。ブラウザでキャッシュデータが使われた場合、それはサーバ側からは検出できない
ISPは有名サイトに関してはプロクシでキャッシュを提供している。サイトが有名になるとファイルのアクセス数が減るという現象がおこる
セッションを使ってもこうしたアクセス問題は解決できない

クライアントサイドでのデータ収集と分析

クライアントサイドでのデータ収集と分析の特徴と利点
分析したいページに画像やJavaScriptを組み込む。画像は基本的なアクセスカウンタ、JavaScriptはGoogle Analyticsなどより高度な分析が可能
収集されたデータは最後の段階でバックエンドサーバへ送信して処理にかける
サーバサイド収集の場合に検出できないキャッシュ問題を回避できる
閲覧時間、マウスアクティビティ、リンククリック、ディスプレイ解像度、カラーディプス、ブラウザのウィンドウサイズ、利用されているプラグインなど多くの情報を取得可能
クッキーを使ってユーザの特定やナビゲーションパスの特定が可能
クライアントサイドでのデータ収集と分析の問題点
かならずしもJavaScriptやクッキーがクライアント側で使えるとは限らない。5%ほどはJavaScriptが無効になっている
検索エンジンのクローリングではJavaScriptが実行されないため、いつ検索エンジンによってインデックスが実施されたのかを検出できない
JavaScriptのコードはすべてのブラウザで正しく動作するとは限らない
JavaScriptコードはほかのコードの動きを遅くするある可能性がある。このため大抵の場合はページロードのあとに基本データのみを収集するという保守的なアプローチをとっている
HTMLのみが対象となり、CSSやPDF、画像、MP3といったデータには適用できない
JavaScriptコードの挿入が手動で実施される場合、編集を間違えてしまうと収集されないページがでる可能性がある
スクリプトが追加される以前の統計データはわからない
サードパーティ製のアナライザを追加することはセキュリティやプライバシー上の懸念を生む
報告されるレポートには、報告されている以外のユーザもいるという推測が含められることになる
見栄えのいいレポートが生成されるが、データの収集工程はサーバサイドの場合よりもほかの要因の影響を受けやすい

グローバル統計

StatCounterのように定点観測されたグローバルな統計を提供するサービスは便利で使いやすいが、「一般的なWebサイトというものは存在しない」ということを肝に命じておく必要がある。ユーザはコンテンツに依存して大きく変わる。たとえばmozilla.orgならFirefoxユーザが多くなり、apple.comならMac OS X/Safariユーザが増える。opera.comならOperaユーザといった具合。そういった傾向を理解せずにグローバル統計をそのまま使うことは問題がある。

ユーザアカウントベース統計

有益な情報は得られるが、サーバサイドやクライアントサイドの場合と同じ問題がある。

3作目の最後では、Webサイト統計は進歩しており、以前よりも使いやすく便利なものになっているものの、内容が必ずしも正確なものではないと前置きしたうえで、次のようにアドバイスをまとめている。

**複数のソースから提供される統計報告を取得するようにし、そのデータがどういった方法で集計されたもので、どういった特徴と問題点があるのかをちゃんと把握しておく。こうした背景知識を得た上で報告されているデータを吟味するようにし、提供されている数値やグラフだけに基づいて安易に意思決定をしない。**