GitHubはこのほど、「GitHub Availability Report: February 2024 - The GitHub Blog」において、2024年2月の可用性レポートを公表した。今回のレポートでは、GitHubサービス全体のパフォーマンスを低下させた2件のインシデントが報告されている。
Webhook、GitHub Actions等の処理が遅延
1件目のインシデントは2024年2月26日18時34分(協定世界時)に発生し、53分間続いた。この間、ユーザーはWebhook、GitHub Actions、およびUIの更新において、レスポンスが遅くなる等の影響を受けた。原因は、ジョブキュー サービスの容量制限と自動フェイルオーバー システムの障害によるものとされている。
2件目のインシデントは2024年2月29日9時32分(協定世界時)に発生し、142分間続いた。この間、ユーザーはWebhook、GitHub Actions、およびGitHub Issuesサービスの処理において、レスポンスが遅くなる等の影響を受けた。自動フェイルオーバーが発生してトラフィックのルーティングが行われたが、その後プライマリへの不適切な復元が行われたため、キューに入れられたジョブが大幅に増加して完全に復旧するまで処理が遅延する辞退に陥ったという。
GitHubでは、これらのインシデントに対する再発防止策として、自動化処理の向上、フォールバック プロセスの信頼性の向上、バックグラウンド ジョブキュー サービスの容量の拡大という3つの対策を実施したと発表している。ただしこれは短期的な対策であり、より長期的な対策として、ジョブ処理プラットフォームの全体的なスケーラビリティおよび信頼性を向上させるための取り組みを行っているという。
GitHubは定期的に可用性レポートを公開しており、リアルタイムの稼働情報を「GitHub Status」から確認することができる。