Webサイトは、スクリプトやボット、さらにはちょっとした自動処理に常にさらされています。これにはよい面も悪い面もあるのですが、ほとんどはその中間です。
「スクレイピング」とは、Webサイトの情報をコピーまたは抽出する処理を指します。ショッピングのときの商品の比較やデータモニタリングを行うアプリケーションでは、ある種のスクレイピングが使用されています。一般的にこのようなスクレイピングは合法的であるとみなされ、コンテンツプロバイダが規定したサービス利用規約に沿って行われます。これに対して悪質なスクレイピングは、著作権やサービス利用規約を完全に無視し、Webサイトのコンテンツを別のサイトに許可なく公開します。さらに、Ticketmaster.comとTickets.comの訴訟や、American AirlinesとFareChaseの訴訟は、いずれのタイプにも分類できないスクレイピングの例でしょう。
コンテンツのスクレイピングを管理するには、どのような対策を講じればよいのでしょうか。このようなニーズにまさに最適なのが、Barracuda Web Application Firewallです。
Barracuda Web Application Firewallは、サーバ、アプリケーション、データをWebベースの攻撃などから保護するソリューションです。ここでは、特に重要なスクレイピング対策をいくつかご紹介しましょう。
ヒューリスティックなフィンガープリントとIPレピュテーション: GeoIPまたはバラクーダネットワークスのレピュテーションデータベースに基づいてIPアドレスを制限します。このようなID識別手法では、疑わしいトラフィックのブロック、スロットリング、CAPTCHAチャレンジを実行できます。
特定のユーザエージェントへのアクセスを拒否: スクレイパーとユーザエージェント文字列を特定したら、WAFでトラフィックへのアクセスを拒否する設定を行います。
強制ブラウジングの防止: 強制ブラウジングとは、Webサイト上でリンクされていないコンテンツにアクセスしようとする行為です。たとえば、従業員向けのWebページを作成し、ブラウザにURLを直接入力しないとアクセスできないように設計したとします。強制ブラウジングは、このようなページを検出し、重要なコンテンツやデータを探し出します。
Barracuda Web Application Firewallの詳しい機能については、Webの機能紹介ページをご覧ください。
Barracuda Web Application Firewallでは、さまざまなコンテンツ保護戦略を実施できます。あらゆるスクレイピングを完全に禁止する設定、不正なスクレイピングだけを禁止する設定、リンクされたリソースに対するスクレイピング以外を許可する設定など、Barracuda WAFならばニーズに応じたあらゆる設定に対応できます。
※本内容はBarracuda Product Blog 2014年4月18日How the Barracuda Web Application Firewall helps you manage website scrapingを翻訳したものです。
クリスティーン・バリー(Christine Barry)(バラクーダネットワークス、チーフブロガー)
本稿は、バラクーダネットワークスのWebサイトに掲載されている『バラクーダラボ』5月8日付の記事の転載です。