先日、ある新聞記者の方から、ヒットする製品は「多く、速く、安く、安全」への課題を解決するものが多いとのお話を聞く機会がありました。ITの分野であれば、データを大量に扱い、それをタイムリーに活用でき、低コストで、しかも安全に保護する製品ということになるのでしょう。最近、オブジェクトストレージが注目を集めているのは、まさにこの条件を満たしているからです。この4つの視点から、オブジェクトストレージについて紹介したいと思います。
1.「多く」 - オブジェクトストレージは、大量データを扱うのが得意
ここ数年、「ビッグデータ」という表現を見かける機会が増えています。多くはデータが生み出す価値に着目した「ビッグデータ分析」についてです。しかし、ビッグデータの語源は、ある日突然、膨大なデータが押し寄せてくる現象をビッグウェーブ(大きな波)にたとえ、人気Webサイトのエンジニアがオープンソースのコミュニティで議論したことに由来しているようです。従来システムの想定をはるかに超える多種多様な大量データをいかに処理し、どうやって今後何年間にも渡り保存し、活用し続けるか、という問題提起でした。
このようなビッグデータに立ち向かう解決策として採用され始めたのが、HadoopやNOSQLデータベースに代表される大規模分散処理技術とオブジェクトストレージです。
オブジェクトストレージが大量データを扱うことが得意な理由は、その構造にあります。一般的に私たちがファイル保存に使うファイルストレージは、データが格納される物理装置の場所を頂点とするディレクトリやフォルダといった階層構造を使いファイルを管理しています。しかし、オブジェクトストレージには、ファイル構造のような階層構造がありません。この階層構造が無いことにより、ボリュームA → フォルダB → フォルダC → フォルダD → ファイルEといったディレクトリの階層をたどりながら目的のデータを探し出す必要がありません。オブジェクトストレージでは、ファイル(オブジェクト)にそれぞれ固有のIDが割り当てられているため、そのIDを指定して直接ファイルを読み出します。
ファイル構造は、データ量が少なければ便利に使えますが、データ量が膨大になるといくつもの制約が生じます。たとえば、ディレクトリやフォルダを管理する仕組みが複雑になります。単体の装置には性能や格納量にも限りがあるため、複数装置にまたがる階層構造となると、それを維持し続けるのは簡単なことではありません。そもそも、容量一杯になり、データの格納場所を移動するとなれば、物理装置を頂点とする階層構造そのものが変わってしまいます。関係者が多かったり、移動ファイルを参照するアプリケーションが多岐にわたると、ファイルのありかの変更に伴う混乱を避けるため、オフィス移転の際の住所や電話番号変更と同じように、時間をかけ、慎重に周知しなければなりません。
このため、すでに大量のデータを抱え、さらにそのデータが2年で倍になる、もしくは、その増加が予測できないといった環境においては、オブジェクトストレージの仕組みが適しています。
2.「速く」 - データをタイムリーに活用できるのがオブジェクトストレージ
一般的に、古くなったファイル等のデータは、テープ等、低コストの記録媒体に移し替え、倉庫等で保存されています。この場合、いざ使うとなると、数時間、時には数日かけ、テープを倉庫から運搬し、読み出すといった手間や時間が必要となります。時にはテープが劣化し読み出せないといったこともあります。その結果、万が一の万が一の場合にしか使いたくない「ダーク・データ」や「死蔵データ」になりがちです。
ビッグデータ分析が手軽に行えるようになったこともあり、たとえば過去10年間のデータを蓄積しオンラインでのアクセスを可能にしておけば、季節変動の前年比だけではなく、経年変化やライフサイクルの変化までもタイムリーに分析できます。オブジェクトストレージは、インターネット通信で広く用いられているHTTPのRESTというプロトコルでデータのやり取りを行うことが一般的です。これによりインターネットを介して、遠隔拠点やモバイルからでも、データをオンライン活用できます。接続遅延の少ない企業構内からのアクセスを前提とする従来型のストレージとは異なるオブジェクトストレージの特長です