ThousandEyesは8月4日(米国時間)、「The SharePoint Outage & Security Certificate Considerations」において、過去2週間のインターネット上の障害やトレンドを分析したレポートを公開した。最新の障害の要因などが紹介されている。
過去2週間で発生した主な障害は次のとおり。
- SharePoint OnlineおよびOneDriveの障害: 7月24日、MicrosoftのSharePoint OnlineおよびOneDrive for Businessサービスへの接続に問題が発生した。問題は協定世界時(UTC: Coordinated Universal Time)19時5分頃に最初に確認され、世界中の接続に影響があった模様。SSL証明書の誤った変更により証明書エラーが発生し、安全な接続が確立されなかったことが原因と考えられている
- Slackの障害: 7月27日、Slackの一部のユーザーが約1時間にわたってメッセージの送受信ができなくなった。問題は北米の早朝に発生し、一部のヨーロッパで午前中に影響が出た可能性がある。インシデント発生後に社内のシステムコミュニケーションを管理するサービスに変更が加えられた結果、起きた問題であることが報告されている
- スターバックスアプリの障害: 7月20日、コーヒーの注文があったかどうかにかかわらず、スターバックスアプリから注文の準備ができたというプッシュ通知を送信する不具合が発生した。この問題は、アプリのメッセージング部分で作業が行われていた可能性が示唆されている。テストメッセージが誤って本番環境にプッシュされた可能性も指摘されている
- NASAの通信障害: 7月25日、NASAは国際宇宙ステーション(ISS: International Space Station)との通信障害を経験し、コマンド、テレメトリ、音声通信に影響が生じた。これにより、初めてバックアップ通信のスイッチを入れることとなった。この問題の根本的な原因は、ヒューストンにあるNASAジョンソン宇宙センターのミッションコントロールの建物のアップグレード工事に起因する停電であったと報告されている。停電は通信のみに影響し、基本的に地上のみの問題であり、ミッションコントロールへのローカル接続のみに影響が及んだ可能性が高いとされている
過去2週間の障害に関するデータも紹介されている。主なトレンドは次のとおり。
- 世界的な障害件数は、7月10日から16日の2週間で192件から186件と3%減少し、その後、前週に比べて16%減の156件まで減少した
- 米国においても7月10日から16日にかけての障害件数は、96件から74件へと23%減少し、その後、74件から60件へと19%減少した
- 7月17日から30日にかけての全障害のうち、米国中心の障害は42%で7月3日から16日にかけての障害割合の51%よりも少ない。ただし、4月以降、米国を中心とした障害が全体の40%以上を占める傾向は続いている
障害対応の計画を立てる際、あらゆるリスクを想定することは難しい。しかしながら、ThousandEyesは障害が発生した際に成功した点と問題があった点を理解することで、システムやプロセスを改善し、再発を防ぐことは可能だと助言している。