楽天モバイルは10月4日、前月の9月4日に発生した通信障害について、総務省に重大事故報告書を提出するとともに、ユーザーに対する説明を公式サイトに掲載した。

  • 楽天モバイル

事故継続時間は2時間6分、データ通信130万回線/音声通信11万回線に影響

今回の報告は、9月4日11時20分頃~13時26分頃にかけて発生した通信障害に関するもの。利用地域を問わず全国で影響が生じており、影響を受けた利用者数はデータ通信約130万回線、音声通信約11万回線と推定されている。

電気通信事業法では「電気通信事故報告制度」というものが設けられており、各通信事業者は一定規模以上の通信障害などを起こした際には管轄省庁である総務省に対して30日以内に詳細を報告する義務がある。

報告制度ではサービス区分別に「重大な事故」にあたる基準が設けられており、本件は「事故の継続時間が2時間以上」「(データ通信の場合)影響利用者数が100万人以上」など複数の基準に当てはまる。

通信障害発生から復旧までの一連の流れ

通信障害の引き金となったのは9月4日11時20分頃、ソフトウェアの不具合によって西日本データセンター内に設置されているスイッチの再起動が発生したことだという。

スイッチの再起動に伴ってパケット交換装置の再起動も行われ、これにより通信を切断された端末からの再接続要求が集中した。西日本データセンターのポリシー制御装置で要求をさばき切れず輻輳(ふくそう:アクセスの集中によりネットワークが混雑し、遅延したり繋がりにくい状態)が発生。集中的な再接続要求の影響が東日本データセンターにも及び、全国規模の通信障害となった。

  • 事故原因のイメージ図

    事故原因のイメージ図

ひとつの設備のトラブルから復帰した際に端末からの再接続要求が集中し、輻輳が発生して影響が長引くというパターンは、NTTドコモ(2021年10月)、KDDI(2022年7月)など他キャリアの通信障害でも見られる。背景としては、バックグラウンドでの常時接続が前提となるスマートフォンが普及したことで深刻化している課題である。

楽天モバイルではこのようなケースを想定し、トラブル発生時にはポリシー制御装置の役割をパケット交換装置の内部処理で肩代わりする「障害時緊急モード」を用意していた。しかし、障害時緊急モードへの移行判断を属人的に行っていたため、実施可否に時間を要したことも影響が長引いた理由として挙げられている。

再発防止策・改善策

引き金となった西日本データセンター内のスイッチの再起動は、ソフトウェアの不具合によるメモリの枯渇が原因。短期的な措置として、自動削除されるべき不要ログを定期的に削除するという対応を9月7日に実施した。根本的な対処となるソフトウェアの改修は、2023年3月末に完了する見込み。

その他の改善策として、障害時緊急モード発動時の作業手順を見直し、実行の短縮化を図る。

また、今回の通信障害では、ユーザーへの周知不足も問題視された。今後、初報に関しては詳細が認識できていなくても、サービス影響があることを利用者に伝える事を優先するとしている。