デル グローバルSMB本部 エンタープライズ テクノロジスト 桂島航氏

企業においてデータが増加の一途をたどるなか、ストレージを効率よく利用するための技術として「重複排除技術」が生まれた。一言で重複排除といえど、重複を判定する方法やタイミングなど、さまざまな方式がある。また、これまで重複排除はバックアップ・ストレージで主に利用されていたが、プライマリ・ストレージにおける利用の機運も高まっているという。

今回、デルでエバンジェリストとして企業向けストレージ製品の啓蒙活動を担当する桂島航氏に、重複排除を実現する技術の違い、今後の方向性などについて話を聞いた。

同氏は初めに、「企業において、1週間に更新されるデータは全体の5%にすぎない。つまり、残りの95%は蓄積する必要がなく、バックアップデータは元のプライマリ・データの5倍から10倍に及ぶ」と、実のところ、企業内にバックアップすべきデータがいかに少ないかということを話した。

こうした状況のなか、同じデータについて更新された部分のみをバックアップすることで、バックアップにかかる時間を減らしたり、ストレージの容量を削減できたりするのが重複排除技術だ。

同氏は重複排除技術の効果として、「圧縮」と「レプリケーション」を挙げた。「例えば、週に一度フルバックをとり、残りの日は増分バックアップをとるとすると、2回目のフルバックアップは元のデータの50分の1から60分の1に圧縮できる。また、重複排除をレプリケーションとして利用すれば、転送するデータが減るのでネットワークに要するコストを抑えられる」

現在、さまざまなストレージベンダーが重複排除機能を搭載する製品を提供しているが、ベンダーによって技術方式が異なる。違いの1つが「重複排除の単位」だ。ファイル、固定長ブロック、可変長ブロックと3つの方式があるが、「可変長ブロックを単位とする場合が最も重複排除の効果が高い」と同氏。同社の製品では「Dell/EMC DD」シリーズがこの方式を採用している。

可変長ブロック単位方式では、データの挿入によって生じるデータの切れ目のズレを自動的に修正できる。同氏は、「ファイルが固められて大きなファイルにされるバックアップにおいては非常に重要な機能」と述べた。

重複排除の単位の違い

次に、ベンダーによって異なる方式として、重複の判定方法がある。「暗号学的ハッシュ関数で比較する方式」、「データをつきあわせて比較する方式」、「チェックサムとデータ比較を組み合わせる方式」の3種類があり、前述の同社の「Dell/EMC DD」シリーズはハッシュ関数方式を採用している。

実のところ以前、暗号学的ハッシュ関数には「ハッシュが衝突したらデータ消えてしまうかもしれない」といったリスクがあるとして、その他の2種類の方式の製品を開発したベンダーが少なくなかった。「今では、暗号学的ハッシュ関数は安全という認識が一般的」と、同氏は説明した。

重複排除の判定方法の違い

そして、3つ目の違いが「重複排除のタイミング」だ。ディスクに保存する前に実行する「インライン処理」、一度ディスクに保存した後に実行する「ポストプロセス処理」の2つの方式がある。リアルタイムで処理するインライン方式は、バッファのディスクが不要であり、ディスクアクセスも1回で済むのに対し、ポストプロセス方式はデータを溜めておくバッファが必要であり、ディスクアクセスの回数も多い。

同氏は、「インライン方式は既存のシステムをそのまま使うことができるので、多様なアプリケーションに対応できる」と、インライン方式のアドバンテージを説明した。

さらに同氏は、今後の重複排除のトレンドとして、「専用製品というより、さまざまなレイヤの機能となる」、「プライマリ・ストレージへの適用が始まる」、「データライフサイクルとの統合が進む」の3点を挙げた。

Dellは今年7月、重複技術を有するOcarina Networksという米国のベンダーを買収した。従来の重複排除は圧縮によってデータ利用の効率化を図っているため、プライマリ・ストレージにはあまり適していないとされていたが、独自の圧縮技術を採用したOcarinaの重複排除技術であれば、プライマリ・ストレージでも効果を出せる。

Ocarinaの重複排除の特徴はコンテント・アウェア型の重複排除と圧縮技術にある。コンテント・アウェア型の重複排除は、従来はファイルをバイト単位で切って重複排除を行っていたところ、データのタイプに応じてアルゴリズムを変更して圧縮を実施する。未知のデータも学習機能により最適化したアルゴリズムによって対処する。

Ocarina Networksのコンテント・アウェア型重複排除の仕組み

通常は圧縮できないJPEG形式のファイルについても独自技術によって圧縮を行う。JPEGファイルの場合、圧縮率は70%を超える。昨今、企業内でも画像や映像を利用する機会が増えており、Ocarinaの技術によって重複排除が行えれば、ますますストレージのデータ量を増やすことが可能になるだろう。