ビッグデータの活用がこれからのビジネスに競争力をもたらすと言われているが、肝心のデータの格納場所であるストレージが旧態依然としていたのではイノベーションは期待できない。それでは、ビッグデータ時代にふさわしいストレージのかたちとはどのようなものなのか──米国SGIのシニアバイスプレジデント兼CTO(最高技術責任者)、イン・リム・ゴー氏に、同社の新世代ストレージ戦略と分析プラットフォームについて話を聞いた。
ストレージにもう1つの階層が出現
まず、ビッグデータへの取り組みで生じるストレージにまつわる問題として第一に挙げられるのが、大量のデータをどこに格納するかだ。これはビッグデータに限らず企業の業務システムすべてに通じる課題とも言えるだろう。通常、企業が使うストレージは、最上位の階層がCPUのメモリ(キャッシュ・メイン)、次がHDDやSSDのメインディスク、そして最下位の階層がテープメディアといったように、階層が低くなるほど低速で安価なストレージデバイスによる構成となっている。しかしこのままだと、あるデータが現在どこの階層に存在しているのか把握しづらく、また頻繁に必要とするデータが低速なテープメディアに格納されていた場合、オーバーヘッドの長さから業務のスピードまで失ってしまう事態も生じかねない。かといってすべてのデータを高速なストレージに格納したのでは、製品コストも運用コストも大幅にかさんでしまう。
そうした問題を解決するのが、日本SGIが提供する階層型ストレージ管理ソフトウェア「SGI InfiniteStorage Data Migration Facility(DMF)」である。DMFは、データのライフサイクル管理の視点から、アクセス頻度等に合わせてストレージを選択することで、システム全体のコスト削減や省エネルギーを実現する。DMFを使えば、高頻度・高速アクセスが要求されるデータにはFC(Fibre Channel)やSASドライブのストレージを、高速性を要求されないデータには大容量・低価格のSATAドライブのストレージを、低頻度・低速アクセスが許容されるデータには大容量・低価格で消費電力の少ないテープドライブを選択することができるようになる。また、すべてのデータ(ファイル)を一覧することができ、それぞれどこの階層に格納しているかも把握できるという優れた可視化機能も備えている。
例えば数GBという大きなファイルで、数日アクセスがなかった場合には、電源のいらない階層へと移動させるようDMFで設定することで、データの効率的な配置を行うとともに、データの維持にかかるコストも低減できるのである。
「ユーザーは、データがどこの階層に格納されているのか考える必要はなく、ユーザーへの負担がかからないのもDMFのメリットの1つだ」とゴー氏は言う。
ただし、こうした階層構成であっても、HDDからテープメディアへとデータを取りに行くとなると数分というオーバーヘッドが生じてしまう。そこでSGIが開発しているのが、その間を埋める新たな階層を生み出す「ZeroWatt Disk」である。ZeroWatt Diskは、HDDの電源を完全にオフにしながら、他の階層にあるファイルとともに一覧することができる。電源がオフ状態のHDDからファイルを呼び出す場合にも、十秒そこそこ待つだけで済むため、テープメディアと比べるとはるかに時間のロスが少ない。目下、ZeroWatt Diskは世界中でのリリースを待っている状況にある。
「膨大な数のHDDを有するデータセンターのストレージなどは、その電力コストも相当なものとなる。しかしZeroWatt Diskを使えば、かなりの割合のHDD電力をオフ状態にしておけるので、ランニングコストの大幅な削減効果が期待できるだろう」(ゴー氏)
Hadoopでは成し得ない、ビッグデータのもう1つのアプローチとは
ビッグデータの要は、膨大なデータを蓄積することではなく、データを分析して知見を得ることにあると言っていいだろう。そこで、並列処理により大量のデータを高速に分析するHadoopクラスタが世界中で注目を浴びているのだ。
Hadoopクラスタを使った分析は、膨大なデータの中に隠れている問題を理解していて、それを素早く見つけるのに非常に適している。例えば、大きなワラの山の中から一本の針を見つけようとした場合、Hadoopクラスタの考え方は、大きなワラの山を小さな多数のワラの束(ノード)に分割して、各ノードに自分の山だけを探してもらい、もし見つかったら報告させるというものだ。この場合、それぞれのノード間での横の連携は行われない。
この方法は、ワラの山のどこかに針(=解決策)があるということを知っている場合には極めて有効な手法だ。しかし、そこに解決策があることを知らない場合には何も生み出すことはできないだろう。そこで、SGIが編み出したもう1つのビッグデータのアプローチが、針を見つけるのではなく、"関係性"を見つけることで、そこから"針を見つけるべき"という結論を導くというものである。
このアプローチは、よりファジーな意思決定に役立つ。具体的な例としてイリノイ大学のカレブ・リータル(Kalev Leetaru)氏とSGIのスタッフが行った実験を紹介しよう。この実験では、ウィキペディアを分析すれば何か有益な発見があるのでは?といったあいまいな目的から、ウィキペディアのすべてのデータを分析した。すると世界史において紛争が起きるたびに、その1年前にネガティブな記事が増えるということがわかった。そしてそこから、『ウィキペディアは紛争の予測に役立つのでは?』といった実験当初には思ってもいなかった仮説が生まれてくるのである。これがつまり、求めるべき針がわかったということなのだ。
こうした新しいビッグデータのアプローチを可能とするプラットフォームが、SGIが世界最大級のデータマイニングマシーンとして提供する「SGI UV」である。SGI UVは、巨大な共有メモリを有し、1インスタンスの標準Linuxで稼働することができる。そのため、大量のデータであっても網羅的に関係性を分析することができるのだ。
「データ間の関係性を持ったまま格納することができるのがSGI UVの特徴だ。HadoopとUVとでそれぞれ特異なジャンルを組み合わせて活用することで、ビッグデータの可能性は大きく広がると確信している」──ゴー氏は強く訴えた。