ThousandEyesは1月24日(現地時間)、「The Top Internet Outages of 2023: Analyses and Takeaways」において、2023年に発生した注目すべきインターネット障害に関する分析結果を公表した。レポートでは、ネットワーク障害が2件、アプリケーションの障害が2件、インフラの障害が2件、そしてアプリケーションとインフラの複合的な障害が1件、合計7件の障害が時系列で取り上げられている。
7件のインターネット障害
ThousandEyesのレポートで取り上げられている7件の障害は次のとおり。
- Microsoft 365のネットワーク障害(2023年1月25日)
- Microsoft Outlookサービスの可用性の障害(2023年2月7日)
- Virgin Media UKのネットワーク障害(2023年4月4日)
- Amazon Web Services( AWS)のサービスの可用性の障害(2023年6月13日)
- Slackのユーザビリティ低下の問題(2023年8月2日)
- Squareのサービス停止(2023年9月8日)
- WorkdayおよびCloudflareのデータセンターの停電(2023年11月2日)
1月のMicrosoft 365の障害は日本のユーザーも大きな影響を受けた。この障害の原因は外部BGPの変更とされており、AzureやTeams、Outlook、Sharepointなど複数のサービスが約90分間にわたってアクセスできなくなった。ThousandEyesは、 DNS経由のトラフィック分散の変化から、Microsoftがトラフィックを影響を受けるエリアから遠ざけようと試みた痕跡があると分析している。
6月のAWSの障害はUS-EAST-1リージョンで発生したもので、キャパシティ管理サブシステムに問題が生じたことが原因とされている。このサブシステムはLambdaやAWSマネジメントコンソールなどといった多くのサービスの可用性に関連していたため、広い範囲に影響を与える結果になったという。
8月のSlackの障害は、サービスが完全に停止したわけではないものの、画像が正しく表示されなかったり、ファイルのアップロードができなくなったりといった問題が発生した。根本的な原因は、定期的なデータベースクラスタの移行作業によって誤ってデータベース容量が減少したことだという。この容量減少と、スケジュールされたジョブの実行、ユーザーの通常のリクエストが重なり、一部のアクションでエラーや遅延したと報告されている。
ThousandEyesでは、インターネットで発生した障害について定期的に分析レポートを公開している。今回のレポートで取り上げられた7件の障害は、その原因や影響、実施された対策などにおいて、将来の障害対策に役立つ重要な教訓を含んでいるという。ThousandEyesのサイトでは、それぞれの障害に関する個別のレポートも公開されている。