ThousandEyesは2月2日(米国時間)、「Understanding the Microsoft Teams & Azure Disruptions」において、インターネットとクラウドの分析から明らかになった直近2週間のインターネット全体の障害と傾向のレポートを公開した。レポートの全文は「(音声配信)Understanding the Microsoft Teams & Azure Disruptions | Pulse Update by Cisco Podcast Network」から視聴可能。
インターネットの障害に関するレポートの概要
ThousandEyesが発表したレポートの概要は次のとおり。
Azure Resource Managerに関連する機能低下と障害
2024年1月21日、Microsoft Azureのユーザーはリソースのデプロイ、管理、制御に使用されるAzure Resource Manager(ARM)のパフォーマンス低下の影響を受けた。Microsoftが発表した暫定的な根本原因分析(RCA: Root Cause Analysis)によると、原因は2020年6月に新機能のプレビューアクセスを与えられた一部の内部Azureテナンシーにあり、その中に潜在的なコードの欠陥が含まれていた。2024年1月の設定変更によりこの欠陥が誘発され、障害を引き起こし、Azure Resource Managerに依存するサービスに影響が発生した。
Micrsoft Teamsの中断
2024年1月26日、世界中のユーザーに影響するMicrosoft Teamsのサービス中断が発生。原因はサービスの一部に影響を与えるネットワークの問題とされる。Microsoftは代替接続へのフェールオーバーによって影響を緩和したが、アメリカ全域では緩和しきれず、さらなるネットワークとバックエンドサービスの最適化の取り組みを実施して改善した。
Oracle Cloud Experiencesのネットワーク停止
2024年1月16日、米国、カナダ、中国、パナマ、ノルウェー、オランダ、インド、ドイツ、マレーシア、スウェーデン、チェコ共和国など複数の地域でOracleクラウドと接続する顧客やダウンストリームパートナーに影響を与えるネットワークの障害が発生した。この障害により、NetSuiteなど多数のデータセンターやダウンストリームサービスに影響を与えた。Oracleは公式のアドバイザリーを発表していないようだが、ThousandEyesは影響を受けたインタフェースで100%のパケットロスを観測している。
Jiraユーザーが503を含むエラーに遭遇
2024年1月18日、AtlassianのJiraユーザーは午前6時52分(協定世界時)から3時間半にわたり、「503 Service Unavailable」に遭遇した。この障害は他のJiraサービスにも影響を与えた。Jiraの障害報告「Jira Software Status - Jira Family is unavailable across shards」によると、この事案はAtlassian Marketplaceサービスの内部サービスでスケジュールされたデータベースアップグレードにより、サービスのパフォーマンスが低下したことが原因とされる。このパフォーマンス低下により要求のタイムアウトが発生。影響がアップストリームに連鎖し、Jira製品全体に障害が波及した。
Sageの停止
2024年1月24日、南アフリカの一部のSageユーザーが「Sage Business Cloud Payroll Professionalサービス」にアクセスできなくなった。ログイン済みのユーザーに影響はなかったが、原因が認証関連に存在したかはわかっていない。ThousandEyesの観測では、ネットワークに障害の原因はみられないという。
Red Hatで検索関連のインシデントが4件発生
2024年1月3日、15日、17日、25日に検索関連のインシデントが発生。この障害によりRed Hatのサブドメインに影響を与えた(参考:「Red Hat Status - Search outage - Multiple domains」)。
ネットワーク障害の傾向
ThousandEyesが過去2週間(2024年1月15日~28日)に観測したインターネットサービスプロバイダー(ISP: Internet Service Provider)、クラウドサービスプロバイダーのネットワーク、コラボレーションアプリネットワーク、エッジネットワークの障害情報は次のとおり。
- 調査期間の前半では世界的に障害が増加し続けたが、後半で19%減少した
- 米国でも同様の傾向にあった
- 観測されたネットワーク障害の半数以上(52%)が米国で発生した。これは、2023年4月以降一貫して見られる傾向で、米国を中心とした障害が全体の少なくとも40%を占めている
障害時の行動
ThousandEyesはクラウドインフラストラクチャの世界において冗長性の確保は重要としつつ、すべてのクラウドサービスにバックアップ環境を用意できるわけではないため、時には忍耐が必要だと指摘している。中央管理コンソール(Azure Resource Managerなど)や、クラウドの特定のサービスが原因の場合、顧客による冗長性の確保は難しい。
このような障害では運用チームに改善を待つという忍耐が求められるが、ThousandEyesは原因がクラウドサービス側に存在しているのかどうかを、どうしたら判断できるのかと疑問を投げかけている。クラウドサービスを利用する企業の運用チームには、障害時の行動を事前にシミュレーションして分析するなど、起きた障害を参考に対応を検討しておくことが望まれている。