ThousandEyesは3月1日(米国時間)、「AT&T Outage and Disruptions at Google Cloud, Front, and More」において、過去2週間(2月12日から2月25日まで)にインターネット全体で発生した障害と傾向の分析レポートを公開した。レポート全文は「AT&T Outage and Disruptions at Google Cloud, Front, and More - YouTube」で視聴可能。

  • AT&T Outage and Disruptions at Google Cloud、Front、and More

    AT&T Outage and Disruptions at Google Cloud, Front, and More

インターネット障害と傾向

ThousandEyesはこの2週間に発生したインターネット上の主な障害を解説している。その概要は次のとおり。

  • 2024年2月22日の米国東部標準時午前3時30分ごろAT&Tに障害が発生。全米の携帯電話サービスに影響した。原因は同社が実施していたアップグレード作業中の誤ったプロセスの適用と実行にあるとされる(参考:「(PDF) Addressing the February 22 outage」)。AT&Tはファーストレスポンダーサービスから復旧を開始。携帯電話サービスは段階的に復旧し、約11時間後に完全復旧した。ThousandEyesは障害発生時にAT&TのコアIPネットワークが機能していることを観察しており、このネットワークを使用していた企業は影響を受けていない可能性があるとしている。
  • 2024年2月14日(米国時間)、us-west1リージョンのGoogle Cloudのリージョンメタデータストアに問題が発生し、散発的な中断に至った。原因は予期せぬ需要の増加によりリージョンメタデータストアの負荷分散処理が間に合わず、サービスのレイテンシとエラーが増加したことにある(参考:「Google Cloud Service Health」)。障害は米国太平洋標準時午前9時45分から午後12時52分まで発生した。ThousandEyesは障害により読み込みに若干の遅延が確認されたが、全体的な影響はごくわずかだったとしている。
  • 2024年2月18日、カスタマーオペレーションプラットフォームの「Front」はWebトラフィックの予期せぬ大幅な増加によりサービスを中断した。このサービス中断により顧客はアプリケーションの読み込みに問題が発生した。ThousandEyesの観測でも負荷が原因とみられており、負荷の増加にも悪質性は確認されていない。
  • 2024年2月14日(米国時間)、クラウドストレージコレボレーションサービス「Box」の一部ユーザーに障害が発生。約30分間ログインできなくなった。原因はサードパーティーサービスプロバイダーの基盤ネットワークコンポーネントの一時的な障害とされる(参考:「Box Status - [Major] Issues with Logins」)。
  • 2024年2月15日(現地時間)、Ubank、Bank Australia、Defence Bank、Beyond Bank、People's Choice、P&N Bankなどオーストラリアの銀行のオンライン送金、アプリ、決済サービスOskoに障害が発生した。原因はオンラインバンキングサービスを提供しているソフトウェア企業「Data Action」のネットワーク障害にあるとされる
  • 2024年2月1日(米国時間)、ミネソタ州立大学ムーアヘッド校の一部サーバに障害が発生。原因はランサムウェアによるサーバのデータ暗号化と、それによるシステムの停止とされる(参考:「MSUM Campus Updates」)。2月29日の最終報告においても完全復旧には至っていないことから、ランサムウェア被害の影響の大きさをうかがえる

ネットワーク障害の傾向

ThousandEyesは同期間におけるインターネットサービスプロバイダー(ISP: Internet Service Provider)、クラウドサービスプロバイダーネットワーク、コラボレーションアプリネットワーク、エッジネットワークにて観測された障害の傾向について報告している。その概要は次のとおり。

  • 2月12日からの1週間は障害件数が23%減少、その後の1週間でさらに32%減少した
  • 米国も同様の傾向が見て取れる
  • 2月12日から25日までの障害のうち、米国を中心とするもはわずか37%だった。4週連続で40%を切るのは約1年ぶりとなる
  • 過去8週間のネットワーク障害件数 - 提供:ThousandEyes

    過去8週間のネットワーク障害件数 引用:ThousandEyes

まとめ

ThousandEyesは、この2週間に通信事業者や企業における「負荷」に関連した障害を観測している。負荷への対処は基本的なものとなるが、運用チームにとって必ずしも簡単な作業とはならない。特にランサムウェアなどの被害を受けて運用に支障をきたすものは、復旧に長い時間を要する。

このような被害を軽減するためにも、日頃から十分なセキュリティとバックアップ体制を構築し、インシデント発生時に速やかに対処できるようにトレーニングしておくことが望まれている。