インシデント管理ソリューションなどを提供するPagerDutyは10月29日、都内で説明会を行い、システム障害(インシデント)の発生状況、コスト、課題に関する国内調査結果を発表した。同調査は、今年8月に従業員数1000人以上の国内企業のITリーダーと意思決定権者300人を対象に実施した。

インシデント対応は経営課題

まず、PaderDuty 代表取締役社長の山根伸行氏は「デジタルサービスの急速な拡大と、ITインフラの複雑化により、問題が発生したい際に特定が困難になっている。インシデント対応はIT部門だけの課題ではなく、経営課題の1つになっている。インシデントをゼロにするのは不可能なため、発生することを前提に準備・対策を行うことが重要だ」との認識を示した。

  • PaderDuty 代表取締役社長の山根伸行氏

    PaderDuty 代表取締役社長の山根伸行氏

調査によると、ITリーダーの約6割が過去1年間で重大なインシデントを経験(平均19件)し、重大インシデントは過去12カ月で平均37%増加したという。

回答者はインシデントに起因するシステムダウンタイムのコストを1分あたり74万円、1時間換算だと4440万円と見積もっている一方で、障害の発生から解決までに要した平均的な対応時間(MTTR:平均修復時間)は6時間12分(372分)も要していることが判明した。

過去1年間で平均19件の重大インシデントを経験していることを考慮すると、サービス停止など重大なインシデントが発生した際の累積コストは1企業あたり年間52億円にのぼると推定。特に、平均修復時間/MTTRはグローバルと比較した場合、2倍以上の時間を要することがわかった。

日本における平均修復時間/MTTRが372分、グローバルでは175分であり、日本は2倍以上の時間を要し、グローバルにおける重大インシデント発生時の年間累積コスト(年間)は28億円となっている。

  • 日本とグローバルの比較

    日本とグローバルの比較

MTTRから起因する日本とグローバルの被害コストの違いは、日本企業はグローバルと比較して、システム障害対応に十分な投資をしていないという。これには、インシデント対応の多くのタスクが自動化されておらず、マニュアル対応していることも含まれている。

グローバルでシステム障害対応ツールに十分な投資をしているとの回答は46%に対し、日本では12%だったことに加え、エンドツーエンドのシステム障害対応の自動化を進めていると回答した割合はグローバルで38%、日本では10%と日本企業はインシデント対応に十分な投資をしていないことから、グローバルの被害コスト平均よりも2倍近い被害コストが発生しているとの見立てだ。

さらに、具体的なインシデント対応タスクを自動化または手動で行っているのかという質問では、多くのタスクはいまだ手動対応をしていることが判明した。

山根氏は「障害対応にあたり、問題が大きいほど部門横断でコラボレーションしながら対策・修復作業を行う必要があるが、コミュニケーションに時間がかかっているほか、修復作業自体をマニュアルで行い、社外とのコミュニケーションにも時間がかかってしまっている」と指摘。

  • 日本のインシデント対応の自動化は遅れているという

    日本のインシデント対応の自動化は遅れているという

インシデント対応の自動化が遅れる日本企業

日本企業において自動化の取り組みが遅れている要因としては「IT組織全体での連携不足」が36%とトップとなり、次いで「人材/専門知識の不足」が34%となっている。

一方、マニュアル対応しているタスクで最も時間を浪費している作業は「障害の修復作業」が20%、「障害の詳細、対応策、調査結果の記録」が16%、「社内ステークホルダーへの連絡」が10%となっている。

  • 日本のインシデント対応の自動化は遅れているという

    日本のインシデント対応の自動化は遅れているという

インシデント対応に対する自動化の取り組みを阻む要因を取り除き、時間をかけている作業を自動化することで、インシデントの修復作業にかかる時間を従来の421分から280分と約2時間半削減することが可能だという。

今後、取るべき対策として山根氏は「経営課題として認識し、適切な投資が必要だ。インシデント対応は盲目的にやるものではないため運用のモダナイゼーションするとともに、マニュアル作業のどの部分を自動化するのか優先順位を付け、アウトソーシングするだけではなく、自社の人材育成と体制強化に取り組むことが望ましい」と提言していた。

  • 今後、取るべき対策の概要

    今後、取るべき対策の概要

機械学習で不必要な情報を削減して自動でエスカレーション

こうした状況に対して、同社では「PagerDuty Operation Cloud」を提供している。これは、New RelicやDatadog、AWS(Amazon Web Services)など700以上の外部ツールからイベントを受信し、インシデントを特定してパターンマッチの機械学習で自動処理してから問題があれば最適な担当者に自動でエスカレーションを実行。

この際、通知に関しては架電やSMS、メール、プッシュ通知、チャットなどの通知方法を選択して、内容が大規模なものでなければ診断・修復作業を自動化するとともにチーム内外と円滑に連携し、次回発生時に向けた学習と予防を行う。

  • 「PagerDuty Operation Cloud」の概要

    「PagerDuty Operation Cloud」の概要

山根氏は「例えば、大企業であれば監視ツールを複数利用しているため、1分間で1万件のアラートが来るため作業が大変になる、しかし、当社のツールではアラートの切り分けを自動化できるため、91%のアラートを削減して重要なアラートだけを通知する。エスカレーションを行い、再発した障害などに関しては修復作業まで一気に自動化でき、人手は一切かからない。システムインテグレーターなしで、お客さま自身で設定して使うことが可能だ」と力を込める。

実際、同社のツールを導入した通信事業者は大量のアラートに悩まされ、部門間の連携も非効率のため解決に時間を要するとともに、開発に注力できないといった課題があった。

PagerDutyを導入したところ、アラート数を10分の1に削減したことに加え、MTTRが24時間から2時間と迅速なインシデントの解決が可能となり、開発にリソースを集中することが可能になったという。

  • 通信事業者によるPagerDuty導入の効果

    通信事業者によるPagerDuty導入の効果

最後に山根氏は「現在、グローバルで2万社が導入しており、アラートを大幅削減できることに加え、問題解決までの時間短縮が図れる」と述べ、説明を結んだ。