二つ目の障害は、1月2日の午前0時17分から1時間53分にわたって4G LTEのデータ通信ができなくなった問題で、最大175万人が影響を受けた。当初0時5分に発生し、1時53分に解消したとしていたが、精査した結果、発生は0時17分、解消は2時10分だったという。

2回目の障害の発生状況

原因はひとつ目の障害とは異なり、信号制御装置が突如アラームを発報し、その復旧でミスが発生したことでLTE対応端末のセッションが解放され、再接続要求が殺到し、アクセス集中で信号制御装置が輻輳を起こした、というもの。

こちらの障害でも影響を受けたネットワークは変わらないが、障害の内容が異なる

信号制御装置は、呼処理を行うバッファと、その呼処理のログを記録するバッファの2種類があり、現在利用している現用系のデータは、予備系の装置にリアルタイムでコピーされている。しかし、信号制御装置のソフトウェアにバグがあり、呼処理ログバッファのコピー処理で遅延が発生した際に、装置全体の異常と認識され、装置アラームが発報されたという。

コピー処理の遅延から、バッファオーバーフローアラームが発報されてしまった

この遅延自体も「多少」(同)の時間であり、装置の処理自体には問題はなかったが、アラームが鳴ったことで同社の運用者が復旧作業を実施。その際、現用系から予備系に切り替えを行うだけで良かったところに、装置全体の復旧措置を実施してしまった。本来は手順書に従った作業を行うべきだったが、手順書には装置アラームの存在は記載されていたものの、発報時の対策方法が記載されていなかったという。

本来は、手順書に従って予備系に切り替えれば復旧したが、そもそもその対策が手順書に記載されていなかったため、装置全体のリセット処理が行われてしまった

この対応で、セッション解放・再接続要求が一斉に発生し、そのため、アクセス集中による輻輳が発生し、データ通信の利用ができなくなった。対策として、1月30日までに信号制御装置のソフトウェアの不具合を改修する。1月8日には、すでに手順書の整備と異常発生時の対応訓練も実施しており、同様の問題が発生しないようにした。

この2つの障害を受けて同社では、アクセス集中時に各装置間でどのように連携動作するかを検証し、輻輳を制御するメカニズムを再点検する。1月30日までに完了する予定で、すでに多くは点検終了しており、「二度とこういうことが起きないようにする」(同)考えだ。

それぞれの対策と完了時期