主要な検索サービスを提供しているGoogle、Yahoo!、Microsoftの3社は3日(米国時間)、Robots Exclusion Protocol (REP)の現状を説明するとともに、それぞれが独自に提供しているディレクティブの説明を公開した。

コンテンツホルダが求めるのはどうすれば検索結果にコンテンツが有利に登場するかだが、逆に特定のコンテンツをどうすれば検索対象から除外できるかも求められている。この場合に使われるのがRobots Exclusion Protocol(REP)だ。robots.txtファイルに指定する方法やMETAタグで指定する方法などがある。これら方法はGoogle、Yahoo!、Microsoftなど主要な検索エンジンサービスでサポートされており、検索エンジンアクセス制御方法のデファクトスタンダードとなっている。

ここ数年、Google、Yahoo!、Microsoftの3社はより細かくアクセスを指定できるSitemapsに共同で対応するなど作業を進めてきた。3日(米国時間)、3社は共同でサポートしているディレクティブを説明するとともに、独自で提供しているディレクティブをそれぞれ報告した。

3社サポートRobots.txtディレクティブ:

  • Disallow - クローリングの対象からはずす指定
  • Allow - クローリングの対象に追加する指定
  • $ - URLの末尾に一致するワイルドカード指定
  • * - 任意の文字または文字列に一致するワイルドカード指定
  • Sitemap - Sitemapsのロケーションを指定

3社サポートHTML METAディレクティブ:

  • NOINDEX METAタグ - クローリングの対象からはずす指定
  • NOFOLLOW METAタグ - ページ内のリンクについてクローリングの対象からはずす指定
  • NOSNIPPET METAタグ - 検索結果にスニペットを表示しないようにする指定
  • NOARCHIVE METAタグ - 検索結果にキャッシュページを表示しないようにする指定
  • NOODP METAタグ - Open Directory Projectからのタイトルとスニペットを使わないように指定

HTML METAディレクティブはPDFや動画などのHTMLコンテンツ以外のコンテンツに指定する場合は、X-Robots-Tag HTTPヘッダを使って指定できる。

上記の共通ディレクティブ以外に、GoogleはUNAVAILABLE_AFTER METAタグ、NOIMAGEINDEX METAタグ、NOTRANSLATE METAタグをサポートしている。Yahoo!ではCrawl-Delay、NOYDIR METAタグ、Robots-nocontentタグをサポート、MicrosoftではCrawl-Delayを追加でサポートしている。詳細はそれぞれGoogle - Improving on Robots Exclusion ProtocolYahoo! - One Standard Fits All: Robots Exclusion Protocol for Yahoo!, Google and MicrosoftMicrosoft - Robots Exclusion Protocol: Joining Together to Provide Better Documentationにまとまっている。SEOを実施する場合には参考にされたい。