KDDIは4月26日、16日から19日にかけて発生した、iOS端末のEメール障害について説明会を開催。同社の取締役執行役員専務で技術統括本部長の嶋谷吉治氏が「お客様にご迷惑をおかけした」と謝罪した。ほぼ3日間にわたる障害は3段階で発生し、手順書のミス、ハードウェアの障害、人的ミスという複合的な原因で復旧まで長引いたという。

謝罪をする嶋谷吉治専務(左)

障害の発生と復旧

障害は、まず4月16日0時35分に発生し、iOS向けに提供されている「Eメールリアルタイム受信設定」が利用できなくなった。これは1時41分に解消し、対象者も全国で最大200人程度だった。これが1回目の障害だ。

発生した3つの障害

障害の発生個所。iOS向けのEメールリアルタイム受信設定サービスのみで発生した

この時点で被害は軽微だったが、この最初の障害が、その後の大規模障害のきっかけとなる。続いて8時8分から、同様にEメールリアルタイム受信設定が利用できなくなり、13時29分まで5時間21分にわたって障害が続いた。これが2回目の障害となる。この時、影響を受けたユーザーは全国で最大288万人に達した。

復旧後、本来なら順次Eメールの再配信などが行われるが、今度はこれが利用しづらい状態になった。これが13時29分から19日2時54分まで、2日間と13時間25分という長時間の障害に発展した。全くサービスが出来ないというよりも、「利用しづらい状況」だったという。これが3回目の障害だ。

影響を受けたユーザーは全国で最大127万人だった。この間、障害報告でKDDIは、いったん復旧したというリリースも発表しているが、検証の結果、3つの障害が連続して発生していたという。

今回の障害の直接のきっかけは、Eメールリアルタイム受信設定サービスをバージョンアップする作業だった。これは、今夏にも新サービスの投入を予定しており、そのためにサーバーを更新する必要があったからだ。新サービスについては現時点で明らかではないが、このバージョンアップで、「ユーザー認証サーバー(マスター)」「ユーザー認証サーバー(レプリカ)」を刷新しようとしていた。

そもそも今回、iOS向けにのみ障害が発生したのは、KDDIがiOS端末でプッシュ型のEZwebメール(@ezweb.ne.jpドメインのメールサービス)を提供するために、Microsoft Exchange Serverを使ったメールシステムを構築していたため。iOSのMMSやIMAP、Androidスマートフォン、従来の携帯電話向けのメールサービスとは異なるシステムになっていたという。

Eメールリアルタイム受信設定は、インターネット経由で到達するメールに対し、中継サーバーが受け取って各ユーザーのメールボックスがあるメールBOXサーバーに配信。メールBOXサーバーとユーザー認証サーバーがユーザーの認証を行った上で、プロキシサーバー経由でユーザーの端末にメールを配信する仕組み。

本来、図の手順でバージョンアップ作業を行う予定だった

今回はこのシステムに対してバージョンアップ作業を行った。実際の作業は、現行のサービス自体は停止せず、現行のユーザー認証サーバー(マスター)から、新機能を追加した新しいユーザー認証サーバー(マスター)にユーザー情報をコピー。コピー終了後に現行マスターサーバーを停止し、旧レプリカサーバーとの接続を切断。そして新マスターサーバーを稼働させ、新レプリカサーバーに接続した。そして現行プロキシサーバーやメールBOXサーバーなどの接続先を新レプリカサーバー側に移行する、という流れ。