この時、MME03も立ち上げていたが、ここにトラフィックを引き継ぐ処理において輻輳が発生。再度リカバリー処理が走ってバグを誘発、MME全体がダウンした。
もともとMME01を切り離し、MME03を稼働させた上でMME01への修正を行っていたところ、MME02の特定プロセスが過負荷になり、MME03への引き継ぎでリカバリー処理のバグが発生、両系断となった |
MMEはLTEの制御で利用されるが、これがダウンしたことで、端末側は3G網への接続を行った。この処理によって大量の通知が加入者情報管理システム(HSS)に対して発信されたことで、ダウンしたMMEとHSSとの間に輻輳が発生。続いて加入者管理ノード(SLF)からHSSへの接続が正常に行われなかったことで、29日には音声通話やSMSにも障害が発生していた。
今回の障害の第1の原因は、4月27日に発生したフラグメント化されたパケットが特定の長さ以下の場合にエラーが発生するというバグだ。めったにないことだというが、同社では問題が発生する理由は把握しており、全国のMMEを改修しようとしていたところ、今度はハードウェア障害や過負荷といった問題が発生した。これにともない、リカバリー処理におけるバグが顕在化し、冗長化していたはずの2台のMMEが両方ともダウンするという結果に陥った。
ソフトウェアのバグやハードウェアの障害は、発生自体は仕方のない部分もあるが、問題は、その結果サービスが長時間にわたって中断するほどの障害を起こしてしまったという点だ。同社は従来のネットワーク設計では、平時のトラフィックを処理するのは問題なかったとのことだが、工事や障害のような臨時の場合の設備設計に不備があった。結果として、同じリカバリー処理のバグを発生させ、連続して障害を発生させたことは大きな課題だ。
フラグメンテーション処理とリカバリー処理のバグに関しては、順次修正が行われているが、その修正作業中に、今回と同じ問題が起きる可能性はまだ残っている。ただし、同社では今回の問題を踏まえ、負荷分散などの対策を行った上で修正するとしており、同様の障害発生を避けたい考えだ。
同社では、「スマートフォン/4G時代に見合った"機能安全"の確立」という方針を示しており、ソフトウェアやハードウェアの品質向上に取り組んだ上で、運用品質の向上、容量設計思想・指針の確立を行う。「機能安全」は、自動車業界などでは規格化されているが、基本的に「人はミスをし、ものは壊れる」という前提の中で、それでもサービスを止めないという考え方にもとづき、全体の設計を行っていく。従来のフィーチャーフォントは異なり、「常時接続」でランダムにパケットがとんでくる、大容量データのトラフィックが発生する、というスマートフォンやLTE環境下でも、障害を最小限に抑え、早期に復旧できる体制を整えたい考え。そのため、田中孝司社長を本部長とする「LTE基盤強化対策本部」を設置し、取り組みを強化していく。
具体的には、4月の障害発生以降、MMEなどの設備強化のために230億円の追加投資を決定していたが、今回の障害を受けて、さらに投資額を30億円増額し、300億円の設備投資を行う。8月までにバグの修正、MMEの分散などを実施し、今期中にMMEを58台まで拡大するなど、設備を増強する計画。今後、さらなる体制強化を図る意向だ。
なお、同社は約款で「24時間の障害発生で返金」としている。しかし、今回は工事・障害発生時の対応に不備があり、3回に渡る障害を発生させたことから、LTEデータ通信を利用できなかった、または5月29日に音声通話を利用できなかったユーザーに対し、3日分相当の700円を減額して請求する。