NTTドコモは10月15日、前日の10月14日に全国規模で発生した通信障害について記者会見を行った。
会見で状況を説明したのはNTTドコモ 代表取締役副社長の田村穂積氏。常務執行役員 ネットワーク本部長 小林宏氏、サービス運営部長 引馬章裕氏も同席し、質疑に対応した。
障害の概要・時系列
説明によれば、障害が起きたのは10月14日の17時ごろ。音声通話/パケット通信サービスが利用しづらい事象が発生した。同日19時57分には一部回復したものの影響は続き、10月15日の5時5分に4G/5Gの通信は回復。しかし3Gについては、会見が開かれた15日14時の時点でも復旧対応中となっており、会見の中でも明確な完全復旧の見込みは示されなかった。ただし3G通信も前日にくらべれば状況は改善されているという。
【※18時15分補足】「2. 発生事象概要」のスライドに「影響規模 位置登録不可:約200万ユーザー」との記載があるが、これは後述の「加入者/位置情報サーバー」への位置登録ができなかった件数。位置登録ができた場合でもネットワークが混み合っていて通信がしづらい状況となっており、この件数が影響規模の全体を示すものではない旨、NTTドコモより補足説明があった。 |
影響エリアは全国。通話/通信ができなかったという障害の性質上、どれくらいの利用者に影響が出たかの判断は難しいという。ただ、前週の同時間帯との比較で音声通話数が約15%、パケット通信量が約4%減少しており、この減少分が今回の障害の影響によるものではないかとのことだった。
事象の原因となったのは、10月14日0時から行われたIoTサービス(タクシーの電子決済/自動販売機などに組み込まれているもの)における加入者/位置情報サーバーを旧設備から新設備へ切り替える作業。この作業において不具合が確認されたために旧設備への切り戻しが必要となり、16時36分にIoT端末に対して旧設備への位置登録を促す措置を実施したところ、IoT端末がいっせいに位置登録信号を送信したことでトラフィックが上昇。通信が混み合ったことで輻輳も発生し、17時ごろから通信がしづらい状況となった。
この状況を受け、17時37分から位置登録信号の送受信を制限するネットワークコントロールを実施。18時9分から、IoT端末以外に対してコントロールの緩和を開始し、19時57分にはIoT端末以外ではコントロールの緩和を完了したが、その後もIoT端末からのトラフィックが多い状態は続き、完全回復が遅れることになった。コントロール緩和の完了を受けて一般ユーザーの通話/パケット通信利用も上昇したものの、それが障害に与えた影響は大きくなかったという。
音声通話/パケット通信に障害が生じた原因は?
なお、今回切り替えが行われた加入者/位置情報サーバーはIoTサービス用のものだったため、一般用の加入者/位置情報サーバーは影響を受けなかったものの、その径路にあたる交換機に輻輳が生じ、携帯電話の音声通話/パケット通信にも障害が発生することになった。
音声通話がつながりづらくなったのは、音声交換機/信号交換機の輻輳によるもの。パケット通信サービスは、端末の移動がなければ位置情報の更新が必要なかったため影響を受けなかったが、端末の移動があった場合に位置情報の更新が必要となり、信号交換機の輻輳で位置情報の更新ができずに利用しづらい状況となっていたという。
再発防止策としては、加入者/位置情報サーバーの移行切り戻しという通常運用と異なる状態での処理脳力を再確認すること、確認した処理脳力を踏まえた適切な切り替え手順への見直しを図るとしている。
3Gの回復遅れ、情報発信に質問が集まる
質疑応答で、復旧までに時間がかかったこと、とくに3G通信が発表会開催時点でも回復に至っていない点を問われたが、回復のための作業は5G/4G/3Gを並行して行っており、5G/4Gを優先したわけではないとのこと。時間差が生じたのはそれぞれのネットワークを利用しているサービス/アプリケーションの性質によるもので、3G環境により綿密な対応を必要とするものが多いためだという。
また、まだ障害が続いていた14日夜の時点で完全復旧を思わせる報道があったこと、障害が続いている深夜の間にとくに情報更新がなかったことなど、障害時の情報発信として十分であったかという質問もあった。NTTドコモからは21時5分に一部復旧というお知らせを掲示をしたという認識であり、完全復旧を思わせる情報発信をしたわけではないとしながらも、今後は誤解がないよう、一般にもわかりやすい情報発信も課題のひとつだという見解を示した。
また、NTTグループも先日新しい働き方について発表していたことをひき、社会全体でテレワーク・リモートワークを進める中で今回のようなトラブルをどう考えるかを問われると、原因の究明と再発の防止、そしてよりよいネットワークの構築を進めたいとした。さらに、サーバー移行のような通常運用と異なる状況でも安定した通信環境を確保できるよう、今回の反省をふまえ、手順書の抜本的な見直しなどを行っていくと語った。