KDDIの大規模障害が完全に復旧したことが7月5日に確認され、同日、復旧に関する現状をまとめた会見が開催された。「ほぼ復旧」状態から1日の確認を経て「復旧」宣言が出されたことで、大規模障害がようやく終息したことになる。今後KDDIは、原因究明と再発防止策の策定を進める考えだ。

  • KDDIの通信障害について、これまで「ほぼ回復」と表現されていたが、ようやく「回復」となった

なお、現時点で接続に問題がある場合は、端末の電源をいったん切り、再度オンにすることで復旧する可能性がある。

  • 説明会に参加したKDDI取締役執行役員専務・技術統括本部長の吉村和幸氏(右)と、執行役員で技術統括本部副統括本部長兼エンジニアリング推進本部長の山本和弘氏(左)

約62時間を経て障害前の通信状況に復旧

復旧宣言が出されたことで、今回の障害は7月2日1時35分に始まり、4日15時に解消するまでの実に61時間25分にも及ぶ大規模障害となった。影響を受けた回線数は現時点でも完全に把握できておらず、「最大約3,915万回線」といった表記に変更はない。

  • 約61時間に達する大規模障害がようやく復旧。今後は、影響回線数などの精査が行われる

4日の記者会見では、4日15時にトラフィックの輻輳(ふくそう、通信網内で“渋滞”が起きていることを表す用語)が解消されており、「ほぼ復旧」と表現していた。その後、障害が起きたVoLTE交換機や加入者DBを含めて関連設備の不具合がすべて解消されたこと、個人・法人のユーザーが平常通り利用できているかを慎重に確認。音声発着信の成功率とトラフィックが障害発生前と同等なレベルで推移したことから、5日15時36分をもって障害から回復したとして、完全復旧が宣言された。

  • 7月3日、4日の説明会でも説明された障害の発生個所とその対処

  • 障害対応の時系列。4日の説明会以降はネットワークとトラフィックの状況監視を続けていた

今後は原因究明を急ぐとともに、再発防止策をまとめて今後につなげていきたい考え。電気通信事業法にもとづき、総務省に速やかな報告と30日以内の詳細報告が必要なため、まずは30日以内をめどにまとめる。

  • 実際の音声通話のトラフィック量。西日本、東日本ともに全周と同等のトラフィックとなったことで、問題ないと判断された

  • カスタマーサポートへの問い合わせも落ち着いたが、障害に関する問い合わせは96,723件に及んだ

復旧手順を見直し。適切な周知手段も検討へ

取締役執行役員専務・技術統括本部長の吉村和幸氏は、今回の事象によって、現時点でも「いくつか見直さなければいけない点は見えてきている」と話す。VoLTE交換機が過剰な信号を発信していることが判明した際に「早期に切り離すべきだった」(吉村氏)点や、「音声(の障害)は早期に対応する」(同)といった点など、見直すべき点を検証していく。

今回の障害は、ルーター交換という作業時に発生しており、想定していた対策を超えた障害が発生したことで、何が起きて、どんな対策が足りなかったのか、事前にどういった検証が必要だったかなど、作業手順をさらに見直していく考え。「異常事態が発生したときは、早期の対処が輻輳においては一番大事」(同)であり、そうした際の対処に必要な体制ができていたかも検証する。

作業前には一定の輻輳発生も考慮してシミュレーションを実施した上でルーター交換の作業をしたというが、シミュレーション通りには行かずに障害が発生した。この事象を究明して、シミュレーションもさらに強化する。「シミュレーションがどれだけできるか、ネットワークを守るものとして、取り組んでいかなければならないテーマ」と吉村氏は強調する。

  • 法人ユーザーの影響も解消した。これまでは公表されていなかった行政機関での問題も、同時に解消された。社会基盤となる法人顧客はシステム、サービス上で問題ないことをKDDIが確認。中小企業などはコールセンター、法人受付窓口で対応しており、重篤なクレームがないので解消と判断したという

現時点では、実際の影響回線数や範囲も明らかではないため、ユーザーへの補償に関しても同様に今後の検討課題となっている。

もう1つの課題が、「障害時の周知体制」。事故発生後、障害が発生している状況をユーザーに対して適切に告知できていたか、という点も反省点としている。

発生後から5日の会見時まで、KDDIには技術に精通した総務省幹部が派遣されており、そこで情報発信の面で助言を受けたという。その結果、1時間ごとに情報が公開され、早期の記者会見も開催された。復旧対応に追われていたKDDIは、アドバイスを容れて情報発信に力を入れたそうだ。

そうした点を反省として、表現や手段、頻度など、現在どういう状況で、いつから使えるようになるのかなど、ユーザーに対して適切な周知手段も検討していく。「技術、広報、営業部門、全社的に対応していきたい」と吉村氏は話していた。

  • 今後は原因究明など3点を検討していく

今後の大規模障害にどう向き合うか

今回の障害は、全国で音声通話がつながりにくい状態になり、データ通信もそれに巻き込まれる形でつながりにくくなった。KDDIだけで周知をしても、回線がひとつでネット接続できなくなったユーザーには、情報を届けることが難しい。

そのため、1社にとどまらない社会的な対策が必要となる。たとえば、政府広報、テレビなどのメディアの活用が考えられるだろう。携帯各社には緊急速報メールの仕組みはあるが、「災害時に使うもので、必ずしも(障害で)すぐに使えるとは思っていないが、他の周知手段を考えていきたい」と吉村氏。

警察、消防などへの緊急通報もできなかったが、これも政治的な対処が必要だ。日本では、ユーザーの契約回線に接続して緊急通報を行うが、海外ではSIMカードが入っていないスマートフォンでも、緊急通報だけは契約を問わず最寄りの回線に接続して発信できる仕組みがある。関係省庁や法的な対応が必要なため、別途開催されている総務省の検討会で議論される見込みだ。

他にも、障害時のみ他社回線にローミングする手法もあるが、端末の改変も必要で、そもそも4,000万近い契約者を急に収容できる余力が他社にあるかどうか、「すぐにそれができるとは思えない」(同)。これも吉村氏は、総務省と検証していきたい考えを示す。

もちろん、再発防止が最も重要だが、いざというときの対策を用意するのは必須だ。KDDIだけにとどまらない対策の検討が必要だろう。

  • 携帯キャリアの大規模障害は、再発防止が最も重要だが、社会的な対策の検討も必要だ