これはハードウェア障害に加え、2重化したサーバーが両方ともダウンするという状況への対策ができていなかったことが問題点とされた。嶋谷氏は、「3重障害ぐらいまで想定すべきだった」と話し、そのための復旧手順を4月24日までに作成。また、現在利用しているユーザー認証サーバーの切り替えツールを刷新し、障害時のサーバー切り替え時間の短縮化を図る。これは4月21日までに完了したという。現時点で、同じような障害が発生しても、「2時間以内、目標としては90分以内」(嶋谷氏)で復旧できる見込みだという。さらに5月末までに、ハードウェア障害の原因を分析し、対策を決める。

3回目の障害は、高負荷でディスクの処理が間に合わなくなってしまったことが原因。こちらを復旧する際、一斉にメールBOXサーバーを再起動せず、トラフィックを見ながら順次再起動すれば良かったが、障害が長引いたため、早期の復旧を狙って一斉再起動をしてしまったという。

メールBOXサーバーはそれぞれスペックが異なり、性能の違いがあるために、当初は高速なサーバーが問題なく処理していたのに対し、処理の遅いサーバーで問題が発生した。実際、障害が起きたのは初期から増設していった24台で、しかも早期からの利用者のため、「利用頻度が高いユーザー」が収容されているサーバーだった、という。

このため、復旧手順を改良し、一斉起動するサーバーの台数を制限したり、トラフィック量を調整する手順を追加、流量調整ツールも導入する。これは5月末までに実施。また、2重化して障害が発生した場合に、それでも一方だけで対処できるように性能向上などを図る。これは8月末までに実施する。流量調整ツールなどを含め、約3億円の設備投資を実施する計画だ。

なお、今回の障害にともない、iOSの連絡先からアドレスデータが消失するという二次被害も発生している。これは、Eメールリアルタイム受信設定でスケジュールや連絡先の同期機能が、端末がサーバーとデータ同期できなくなった場合に、端末のデータを削除した上で、改めてサーバーの連絡先を端末にダウンロードする、という仕組みになっているためだ。

連絡先が消失する原因

これはExchange Serverの仕様。今回、サーバーへの接続がしづらい状態になり、連絡先を削除した状態でサーバーからのダウンロードができなくなってしまった。復旧後に改めて同期すると、サーバーのデータが復旧する形だが、この連絡先同期のサービスは、2012年6月27日以降に提供されており、それ以前に作成した連絡先データは、サーバー側に保存されていなかった。しかも端末はそのデータも含めて削除しているため、6月27に以前に作成した連絡先データが消失した可能性がある。保存していたグループが「@Eメール」になっていない連絡先データは、もちろん削除されていない。

該当ユーザーには返金などの対応

嶋谷吉治専務

今回の障害は、手順書の記載ミスによる作業の誤りに端を発し、ハードウェア障害や作業ミスなどの複合的な要因が連鎖的に発生し、その対策も不十分だった。その結果丸3日間以上という長期間のサービス障害となった。

今回のサービス障害について嶋谷氏は、iOS端末の増加に伴うサーバーの設備投資不足ではないと強調する。本来は4重化しているサーバーが、作業のために2重に減らし、さらにハードウェア障害が発生したためで、平常時の設備には問題ないという認識だ。

KDDIでは昨年末から今年初めにかけてもネットワーク障害を発生させており、これは急増するトラフィックに対応できなかった問題だが、今回は「フェールセーフの考え方が不十分だった」としている。今回の新ユーザー認証サーバーへの切り替え作業は、「2年に1回行うレベルの大がかりなバージョンアップ」だという。

KDDIでは障害への対策をすませた上で、今後同じバージョンアップを行っていく計画だ。また、今回の障害を反省点として対策を徹底し、障害発生時の復旧も迅速化して、ユーザーが安心して利用できる通信サービスを提供していきたい考え。

なお、KDDIの約款上は24時間以上、通話または通信サービスが利用できなかった場合に返金することを定めており、今回は通信サービスの一部のEメールのみが利用できなかったため、約款上の返金の基準には達していない。しかし、長期間にわたってユーザーに迷惑をかけた、として、今回は「真摯に個別に対応していく」と嶋谷氏は説明する。基本的には、影響を受けたユーザーがKDDIに問い合わせることで、それぞれの被害状況に応じて、返金を含めた対応を実施していくとしている。