増大する複合インフラを確実に保護するための5つの課題
前回、増大する複合インフラを確実に保護するための5つの課題として、以下を紹介しました。
- データ保護環境がサイロ化され運用負荷が増大
- バックアップが想定時間内に終わらない
- リストアが要求時間内に終わらない
- バックアップし忘れるリスク
- 復旧操作ミスによる2次災害
「データ保護環境がサイロ化され運用負荷が増大」と「バックアップが想定時間内に終わらない」については、前回に説明したので、今回は残りの3つの課題について、詳しく説明していきます。
課題(3)リストアが要求時間内に終わらない
「リストアが要求時間内に終わらない」という課題を引き起こす要因としては、以下の2点が考えられます。
要因(1)リストア対象データ量の増加
1サーバ当たりの容量の増加により、リストアするデータの容量も増加し、結果として、リストア時間が長期化する。
要因(2)リストア時間の短縮要求
今まで以上にビジネスのIT依存度が高まっており、これまでよりも一層高速なリストアが要求されている。
上記の要因を回避する対策としては、以下の2つがあります。
対策(1)バックアップデータから直接サーバを立ち上げる
仮想環境の場合、ディスクに取得したバックアップデータから仮想マシンを直接立ち上げる技術が存在します。通常、バックアップデータをリストアして初めてシステムを復旧できますが、この技術を使えば、まずシステムを立ち上げて業務を再開した後にバックグラウンドで実データをリストアすることが可能です。VMware環境の例では、バックアップデータを直接データストアとしてESXサーバにマウントし、仮想マシンを立ち上げ、バックグラウンドにてStorage vMotionで実データを本来のストレージにコピーする方式になります。
対策(2)スナップショット/クローンボリュームからのリストア
NASのボリュームレベルによるリストアの場合、ボリュームのスナップショットまたはクローンボリュームからの高速リストアをバックアップソフトウェアから制御できる技術があります。
この技術では、バックアップソフトでバックアップ履歴を管理でき、バックアップソフトからボリュームレベルのリストアを指示することで安全で高速なリストアを実現することができます。
課題(4)バックアップを忘れるリスク
サーバの仮想化が進んだことにより、大規模なデータセンターでは仮想マシンが1000台を超える例も見られるようになってきました。このような場合、従来のバックアップ手法ではバックアップの設定が漏れるリスクが高まります。以下、バックアップの設定のミスを引き起こす要因を紹介します。
要因(1)仮想マシンの数がオペレーターの管理能力を上回る
数百を超える数のサーバのバックアップ設定および管理を人的に行うのは無理があり、設定漏れや設定ミスが発生する。
要因(2)仮想環境管理者とバックアップ管理者の連携ミス
バックアップ管理者が知らない間に重要なシステムが立ち上がっている場合も考えられ、リストア要求が発生した時に初めてバックアップされていないことに気が付く。
上記の2つの要因を回避するための対策は2つあります。
対策(1)ポリシーベースのバックアップ
オペレーターの管理が不能な数にまで増えた仮想マシンをポリシーベースで保護する手法が存在します。例えば、特定のサーバに存在する仮想マシンであったり、特定の名前規則の仮想マシンであったり、時には存在する全仮想マシンであったり、さまざまな条件を指定し、その条件に合致する仮想マシンを自動的にバックアップする手法です。この方式により人的な設定ミスによるバックアップ漏れを防ぎ、バックアップ管理者が知らない間に増殖した仮想マシンも自動的に保護することができます。
対策(2)仮想マシンの保護状況の見える化
バックアップソフトウェアが仮想化管理サーバと連携し、レポートを作成することで、存在する仮想マシンのうち保護されているもの、されていないものをレポートで見える化できるソリューションが存在します。このレポートを日々確認することで、バックアップの漏れをチェックすることが可能になります。
課題(5)復旧操作ミスによる2次災害
最後の課題である「復旧操作ミスによる2次災害」を引き起こす要因としては、次の2点が考えられます。
要因(1)スクリプトによるストレージコピー運用
バックアップ時間が想定内に終わらない場合、安易な選択としてスクリプトによるストレージのスナップショットやボリュームクローンを行うユーザーも少なくありませんが、バックアップ履歴や対象サーバとのひもづけがないまま実行することは非常に危険です。
リストアが必要になった際、「どのボリュームをどこに戻すとどのサーバがいつの状態に戻るのか」という管理が完全に属人的になり、運用者によるミスが発生しやすくなります。
この時、誤って正常稼働のボリュームにリストアをかけてしまうなどのミスが発生すると、正常系のデータを破壊する2次災害に発展します。
要因(2)バックアップシステムのサイロ化
課題(1)でも取り上げた「バックアップシステムのサイロ化」により、コストの増大に加えて、復旧操作もシステムごとにさまざまになり、人的操作ミスを誘発しやすくなります。操作ミスが発生すると、復旧が遅れるだけでなく、誤って正常系システムにリストアすることによるシステム破壊も懸念されます。
これら2つの要因を回避するための対策は、以下になります。
対策(1)バックアップ履歴を確実に管理するバックアップソフトウェアを利用
バックアップシステムの本分は、バックアップの自動化よりは、むしろ確実なリストアにあります。そのためには、きちんとバックアップ履歴を残し、復旧時にどのサーバのどのデータをいつの時点に戻すかをバックアップソフトウェアにより指定・実行できるようにしておくことで、確実な復旧が可能になります。
対策(2)単一のバックアップソフトによる統一された復旧手順
バックアップシステムを統合し、単一のシステムで網羅的にインフラの保護を行うことは運用管理コストを最適化するだけでなく、復旧手順を確実化することにも役立ちます。同じGUIかつ同じ操作方法で、多様なシステムが復旧できることは、確実な復旧の観点から重要なポイントとなります。
まとめ
増大する複合インフラを確実に保護するとともに、運用コストを抑制して投資効果を最大化するには、以下の要件を満たすバックアップシステムが重要となります。
- 多種多様な複合インフラ全体を網羅的にバックアップ・リストア可能
- 拡張性のあるアーキテクチャ
- 重複排除技術を利用した永久増分バックアップと仮想フルバックアップ合成
- ストレージのスナップショット、クローンボリュームを制御管理
- 仮想マシンをバックアップイメージから直接復旧可能
- 膨大な仮想マシンをポリシーベースで保護
- 大量なサーバ群の保護を見える化するレポーティング機能
次回は災害対策に目を向けてみたいと思います。バックアップも災害対策の一種ではありますが、災害からの復旧となると、バックアップだけでは復旧要件を満たせない場合も多く存在します。実際にどのようなソリューションが存在し、何に注目して災害からの復旧を目指すべきなのかを解説したいと思います。
勝野 雅巳(かつの まさみ)
ベリタステクノロジーズ合同会社
テクノロジーセールス&サービス統括本部
バックアップ & リカバリーアーキテクト
1989年に日商エレクトロニクス株式会社に入社。UNIXによるメインフレーム端末エミュレータ、E-mail専用アプライアンス、NAS製品、バックアップ製品の保守、デリバリー、プリセールスSEを歴任。その後2001年EMCジャパン株式会社にバックアップソリューション担当SEとして入社。 2013年、株式会社シマンテックにバックアップソリューション担当SEとして入社。2015年、株式会社シマンテックからベリタステクノロジーズ合同会社の分社に伴い、現職となる。
IT系商社時代から約20年にわたり、データ保護の専門家として業種の如何を問わず、提案活動を通してお客様のデータ保護に関する課題を数多く解決してきた。現在は提案活動と併せて、豊富な経験をもとにセミナーなどにおける講演活動やメディアへの記事執筆を行い、社内外にデータ保護のあるべき姿について啓発を続けている。趣味はテニス。