データ量が爆発的に増え続けるビッグデータ時代の中で、生成・収集した膨大なデータを蓄積・保管する場所として耳にするのが「データレイク」と「データウェアハウス」です。両者の違いはどこにあり、どんなメリットがあるのでしょうか。それぞれの言葉の意味や違い、どういった場合に適したものであるかなど、データレイクとデータウェアハウスの相違点に着目して解説していきたいと思います。
データレイクとデータウェアハウスが注目される背景
データの分析結果に基づいて経営戦略の意思決定を行う、いわゆる「データドリブン経営」が注目され、すでに多くの企業が新たなビジネスやサービスの創出、また事業の見直し・改善にデータを活用し始めています。それに伴い、企業が取り扱うデータの容量も増大化の一途をたどりっています。
そうしたデータを蓄積・保管する場所がストレージとなりますが、データ分析に使用するだけの膨大な量のデータ ―― すなわちビッグデータを単体の物理的な記憶装置(ストレージデバイス)に蓄積・保管するとなると、容量がどれだけあっても足りないでしょう。そのため最近は、複数の物理デバイスを束ねて仮想的な単一の記憶領域とするストレージ仮想化、SDS(ソフトウェア定義ストレージ)、クラウドストレージなどが一般化しています。
そうしたストレージ用途の中でも、とくにデータ分析用途として 古くから利用されてきたのが「データウェアハウス」です。また最近は、データを 収集・蓄積・格納する場所として「データレイク」という言葉を耳にすることもあります。データウェアハウスとデータレイクにはどのような違いがあるのでしょうか。まずは、「データレイク」と対をなして紹介されることが多い「データウェアハウス」から解説していきたいと思います。
データウェアハウスとは?
データウェアハウスとは、データ分析という特定の目的のために処理されたデータ格納場所(倉庫)のことです。多種多様な業務システムのデータベースを集約し、分析やレポート出力に必要なデータを抽出・変換して書き出す先が、データウェアハウスとなります。
データウェアハウスという概念が登場したのは、いまから約40年以上前の1970年代のこと。もともとは業務システムのデータベースに格納されているデータを取り出し、意思決定に使用するためのデータフローアーキテクチャとして考えられました。1980年代になると意思決定支援用に設計されたデータウェアハウス専用サーバーが登場し、1990年代にはデータを分析・可視化し意思決定に役立てるビジネスインテリジェンス(BI)のリポジトリとして一般化していきました。
●データウェアハウスのメリット
データウェアハウスの特徴は、データ分析やレポート出力といった意思決定に使用するためにデータの加工が不要なところにあります。
業務システムのデータベースにあるデータは形式がばらばらですが、データウェアハウスのデータは、処理に必要なデータだけがあらかじめ抽出・変換されているため、高品質かつ整合性が保証された状態で使用できます。
●データマートとは?
なお、データウェアハウスからさらに特定の目的に合わせた部分を取り出し、業務部門がそのまま利用できるようにしたものを「データマート」と呼びます。
データマートはデータウェアハウスよりも小規模・小容量・高速なので、処理のレスポンスを向上させるためにデータウェアハウスとBIなどの分析ツールの間にデータマートを置く場合も多いです。
データレイクとは?
一方のデータレイクとは、さまざまなデータソースにあるデータを加工せず、そのままの形式を保持したリポジトリのことです。その歴史は浅く、ビッグデータ時代が到来した2010年頃に提唱されました。
従来のデータ分析は基本的に社内の業務システムから抽出したものを使用していましたが、ビッグデータ時代では多種多様なセンサーデータ、長期間の保管が難しく廃棄していた各種ログデータ、WebやSNSでやりとりされるテキストデータ、映像・画像・音声などのマルチメディアデータなどにまで分析対象が広がりました。
●構造化データと非構造化データ
これらのデータは、業務システム内のリレーショナルデータベースで扱うデータ(構造化データ)と対比して非構造化データ・半構造化データなどと呼ばれます。こうしたデータは、従来のように分析の要件や手順に基づいたリポジトリ(データウェアハウスやデータマートなど)を設計して蓄積・保管することが難しくなったのです。 そこで考え出されたのが、事前にデータの形式や構造を定義するのではなく、データがアクセスされたときにデータの形式や構造を解析して取り出せるようにするという仕組みでした。これが、データレイクの基本的な思想です。
●データレイクのメリット
このようなデータレイクは、当然のことながら業務部門自身がデータ分析を行って意思決定に役立てるといった用途には向いていません。しかし、さまざまなデータを組み合わせながら分析モデルをつくるデータサイエンティストなどの分析専門家、あるいは人工知能(AI)技術を活用したデータ分析の用途には欠かせないリポジトリと言えます。
データウェアハウスとデータレイクの違いとは?
データウェアハウスとデータレイクには具体的にどのような違いがあるのか、あらためて整理してみましょう。
●違い1:データの保管方法
まず大きく違うのが、データの保管方法です。データウェアハウス(データマートも含む)には分析に必要なデータがあらかじめ加工処理された状態で格納されていますが、データレイクには“生”のデータが未加工・未処理のまま格納されています。 この違いは、必要なストレージ容量にも表れてきます。特定の目的向けに処理されたデータが格納されるデータウェアハウスには、不必要なデータがほとんど含まれないため、ストレージ容量を大きく消費することはありません。しかし、膨大な生データが格納されるデータレイクは、まだ使用するかどうかわからないデータも保管するためデータウェアハウスよりもはるかに大容量のストレージが必要になります。
●違い2:データの使い勝手
データ保管方法の違いは、そのままデータ品質や使い勝手の差にもつながります。あらかじめ加工処理されたデータウェアハウスのデータ品質は高く、業務部門で安心してデータ分析・活用できますが、データレイクのデータはそうはいきません。データレイクに格納されたデータを使用するときには、生データを理解したうえでそのつど最適な状態へ変換する必要があるからです。こういった保管するデータの違いから、業務部門はデータウェアハウス、専門家やAIはデータレイクというように、主に対象となるユーザーも違ってきます。
●違い3:データの柔軟性
ただし、データ保管の柔軟性や自由度は、データレイクのほうがはるかに高いです。データレイクのリポジトリには形式や構造にしばりがないため、アクセスや変更を容易に行うことができます。それに対してデータウェアハウスでは、分析対象が変わるたびにコストをかけて再設計・改修を行う必要があります。
データウェアハウスとデータレイクの主な活用例
では、データウェアハウスとデータレイクはそれぞれどのような用途に向いているでしょうか。
●データウェアハウスの活用例
データウェアハウスが向いているのは、企業の経営情報や財務データなどを分析・可視化して意思決定に使用するという場面です。業種業界では長年、金融機関・銀行など金融サービス領域のデータ分析基盤として活用されています。このほか、たとえばECサイトを運営する企業が顧客の属性情報、購入・閲覧履歴情報と商品の在庫・発注情報などを組み合わせ、One to Oneマーケティングの実現や顧客満足度向上につながるデータ分析を行うといった、目的が決まった用途のリポジトリとしてもデータウェアハウスが向いています。
●データレイクの活用例
それに対しデータレイクは、流通・小売業界、物流・運輸業界、気象情報、交通情報といった形式・構造が異なる外部データを組み合わせながら需要予測を行うような複雑な分析処理などに向いています。たとえば医療・ヘルスケア領域におけるデータ分析に適しています。医療情報には患者の臨床データや医師の所見、X線やCT/MRIなどで撮影した医用画像など非構造化データが多く含まれており、これらを扱うにはデータレイクが最適です。
まとめ
データウェアハウスとデータレイクのどちらを導入すべきか迷ったら、まずは実際にデータを使用するユーザー、および分析モデルを考えます。業務部門が意思決定に使用するために固定された一意のリポジトリを用意するのならデータウェアハウス、専門家やAIが新たな分析モデルを探して新しい発見が得られる自由度の高いリポジトリを用意するのならデータレイクを選ぶと良いでしょう。またデータレイクとデータウェアハウス両者を組み合わせて使用する場面も増えています。それぞれの特徴を理解し、適材適所で活用していきましょう。
[PR]提供:Snowflake