先日掲載した記事『【インタビュー】ビッグデータの"非構造化データ"、その活用例とは? - 日本IBM 中林氏』では、「非構造化データ」の活用例や対応技術について簡単にご紹介した。

日本IBM ソフトウェア事業 インフォメーション・マネジメント事業部 Big data/DWH事業部長の法華津誠氏

同記事でも触れたとおり、ビッグデータの"非構造化データに関しては、Hadoopをベースとした分散プラットフォームを使用して分析処理を行うケースが多いのだが、実のところ、このアーキテクチャでは、収集した大量のデータに対して改めて違う角度から分析するといったことが難しい。これでは、もし気になるデータが見つかっても、それをさらに深堀りしてビジネスに活かすというまでには至らないだろう。

そこでIBMが提案しているのが、大容量データに対応したデータウェアハウスを活用する事だ。。社内業務データと外部データの突合で利用されるのはもちろん、場合によっては、SNSなどから収集した非構造化データを構造化してDWHへ格納し、柔軟な高度分析を実現するためにも使われる。

本誌は、日本IBM ソフトウェア事業 インフォメーション・マネジメント事業部 Big data/DWH事業部長の法華津誠氏に詳細を聞いたので、その模様をお伝えしよう。

<ビッグデータセミナー開催決定>

Hadoopの穴を埋めるために

「問題になるのはやはりスピード。Hadoopや通常のデータベースでも同じ仕組みを作れなくはないが、柔軟性や実行速度には大きな差がある。分析データが欲しいと思ってから、その結果にたどりくつまでに1カ月以上も待たされるようでは、昨今のビジネスでは使い物にならない」

法華津氏はビッグデータにおけるDWH活用の背景をこのように語る。

DWHの優位性は、やはり分析の柔軟さにある。グラフィカルなUIを使って自由にキューブ(分析データの単位)を作れるほか、特定の軸でスライシングしたり、気になる部分をドリルダウンしたりすることが可能だ。

対して、Hadoopで分析を行うとなると、通常は分析処理をプログラムで実装する必要がある。もちろん、設計、実装のみならずテストも必要になるため、すぐに結果を得るのは難しいだろう。

そこでIBMが提案しているのが、Hadoopで収集したデータを必要に応じてDWHに格納するという方法だ。冒頭で触れたとおり、柔軟な分析が可能になる。

「Hadoopは、データを貯めるプラットフォームとして圧倒的に安価なうえ、拡張性も非常に高い。一方でDWHは、アイデアに対してすぐに結果を返すということに長けている。これをうまく組み合わせれば、ビジネスに大きなインパクトを与えられるはず」(法華津氏)

そもそも企業としてビッグデータを活用するなら、例えSNSから収集したデータであっても、企業内にある基幹システムや業務システムのデータとマッチングする必要がある。その際の業務データ格納システムとしては、「DWH以外考えられない」(法華津氏)。Hadoopで収集したデータをDWHに蓄積された業務データと共に分析する必要がある限り、それぞれのシステム共存や連携は必須の要件と言えるだろう。

大容量データに対応したDWHアプライアンス「Netezza」

上記を実現するには、当然ながら、大量データに対応できるDWHが必要になる。IBMではこのニーズに対応した製品として、豊富な実績を誇るIBM Netezzaを提供している。

「Netezzaは国内外において大規模データの分析に数多く使用されている。フレームワークがしっかりしているうえ、その処理スピードや運用簡易性には定評があり、さらに外部システムとの連携機能も備えている。今後、データの量や種類が増えゆくビッグデータの環境下でも不安なく利用していただけるはず」(法華津氏)

では、Netezzaではどのような仕組みによって大量データの高速分析を実現しているのか。その詳細は6月19日(火)に開催される『ビッグデータ分析プラットフォーム・セミナー』において紹介される予定だ。

ビッグデータの時代を迎え、データの種類や用途は以前にも増して多様化している。そんな中、現状を把握したうえで将来を予測していくには、さまざまな角度から数字をつなぎ、見えざる傾向を炙りださなければならない。セミナーでは、その具体的な方法や対応技術が詳しく解説されるので、興味のある方はぜひとも参加してほしい。

<ビッグデータセミナー開催決定>