GitHubはこのほど、「GitHub Availability Report: March 2024 - The GitHub Blog」において、2024年3月の可用性レポートを公表した。今回のレポートでは、GitHubサービス全体のサービスを低下させた2件のインシデントが報告されている。

  • GitHub Availability Report: March 2024 - The GitHub Blog

    GitHub Availability Report: March 2024 - The GitHub Blog

多くのサービスで断続的なエラーが発生

1件目のインシデントは2024年3月11日22時45分(世界協定時)に発生し、2時間3分にわたって継続した。この間、APIリクエストやGitHub Copilot、GitHub Secret Scanning、GitHub Mobileを使用した2FA認証など、さまざまなサービスで断続的なエラーが発生した。問題の発生は4分以内に検出されて直ちにロールバックが開始され、 発生から9分後の22時54分までには軽減されたものの、一部のデータセンターでロールバックに失敗してリクエストの0.4%が失敗を続けるという影響を受けたとのこと。最終的に、問題は3月12日0時48分に収束した。

原因はネットワーク構成が誤った環境にデプロイされたこと。また、ロールバックに失敗した原因は、システムが作成した構成レコードに必須フィールドが欠落していたこととされている。GitHubでは、再発防止に向けてより安全な構成変更のための対策を実装しているという。

GitHub Codespaces、GitHub Actions、GitHub Pagesでサービスが低下

2件目のインシデントは2024年3月15日19時42分(協定世界時)に発生し、42分間にわたってGitHub Codespaces、GitHub Actions、およびGitHub Pagesのサービスが低下した。原因は、一部のクラスターで使用されているフレームワークのアップグレードによるもので、アップグレードに伴って権限システムでリグレッションが発生し、サービスの低下につながったという。

GitHubでは、今後同様のインシデントが発生するのを防ぐために、開発環境とCI環境の構成ミスを修正したと報告している。

GitHubは定期的に可用性レポートを公開しており、リアルタイムの稼働情報は「GitHub Status」から確認することができる。