社内外の膨大なデータを分析してビジネスに役立てるデータドリブン経営の考え方が広まる中、データの蓄積・保存場所として利用されるのが「データレイク」「データウェアハウス」といったストレージ基盤です。実際これらを利用する際には、「どこに」「どうやって」構築すればよいのでしょうか。その方法を解説します。

  • データ活用 イメージ画像

増え続けるデータの保管はクラウドがおすすめ

データを分析・可視化して事業戦略の意思決定を支援するビジネスインテリジェンス(BI)が使われ始めた1990年代、分析に必要なデータを収集・蓄積する保管場所の役割を果たす「データウェアハウス」が急速に普及しました。社内外のさまざまなデータソースから必要なデータを抽出・変換・加工して格納できるデータウェアハウスによって業務部門のデータ活用が進んだものの、当時はインターネットの黎明期です。帯域の狭いネットワーク回線を通じて大量のデータを転送することは難しく、データウェアハウスの仕組みはオンプレミス環境に構築されていました。

ストレージデバイスの低価格化・大容量化に伴ってデータウェアハウス専用アプライアンスが登場するなどデータ保管場所は確実に進化しましたが、データ容量が爆発的に増え続ける現在、すでにオンプレミス環境にある既存のデータウェアハウスでは手に負えないところまで来ています。

この潮流は、あらゆる形式のデータを“生”のまま格納・保管する「データレイク」も同様です。インターネットが普及してから本格的に登場したデータレイクですが、もともとはオンプレミス環境にある大量の物理サーバー上で稼働する分散ファイルシステムにて大量のデータを並列処理する「Apache Hadoop」などの技術を利用した仕組みが主流でした。しかしこちらも、増大化の一途をたどるデータ容量に対応しきれなくなったというのが実情です。

つまり、データウェアハウスにしてもデータレイクにしても、限りなく増え続ける大量のデータ容量に対応できる拡張性、柔軟性を備えたデータストレージをオンプレミス環境という選択肢のみで対応しようとするのは現実的ではありません。データ容量の上限やデータ活用の用途が決まっているのであればオンプレミスの選択肢も十分に考えられますが、大半のケースはクラウドを利用することになるでしょう。 では、次の項目からは、データレイクならびにデータウェアハウスを構築する際、クラウド上の「どこに」「どうやって」構築するかのパターンについて、代表的なものを紹介していきます。

IaaSを用いたデータレイクやデータウェアハウス

クラウドを利用して構築するデータレイクやデータウェアハウスとは、どのようなものが挙げられるでしょうか。まず考えられるのが、いまや広く普及しているクラウドプロバイダーが提供するIaaS(Infrastructure as a Service)を利用する方法です。この方法は基本的に、オンプレミス環境でデータレイクやデータウェアハウスを構築するのと大きな差はありません。物理サーバーの代わりにIaaS上の仮想サーバーを利用し、データウェアハウスやデータレイクのソフトウェアを導入します。データの保管場所は容量が限られたIaaSのストレージ領域ではなく、大容量データに対応するオブジェクトストレージを組み合わせることになるでしょう。

具体的なサービスには、Amazon Web Services(AWS)の「Amazon Elastic Compute Cloud(Amazon EC2)」と「Amazon Simple Storage Service(Amazon S3)」、Microsoftの「Azure Virtual Machines(仮想マシン)」と「Azure Blob Storage」、Google Cloudの「Compute Engine」と「Cloud Strage」などがあります。このIaaSを利用する方法は、すでにオンプレミス環境で稼働しているデータレイクやデータウェアハウスをクラウド環境へそのまま持ち込みたい場合に向いています。ただし、IaaSもオブジェクトストレージも汎用性が高いサービスであり、データレイクやデータウェアハウスとしての利用を想定しているものではありません。特にデータ転送の多い使い方をする場合には、コストが大幅に上昇する可能性もあるので注意が必要です。

PaaSを用いたデータレイクやデータウェアハウス

もう1つ、クラウドプロバイダーが提供するPaaS(Platform as a Service)を利用する方法があります。これはデータレイクやデータウェアハウスの専用サービスであり、ペタバイト級の大容量データも扱える拡張性を備えています。また、データマネジメント、ETL、SQLクエリ、BIなどデータレイクやデータウェアハウスの管理やアクセスに必要なツール類もまとめて提供されているので、構築・運用がしやすいこともメリットです。

代表的なクラウドデータレイクには、AWSの「Lake Formation」、Microsoftの「Azure Data Lake」などがあります。また、クラウドデータウェアハウスには、AWSの「Amazon Redshift」、Microsoftの「Azure Synapse Analytics」、Google Cloudの「BigQuery」などがあります。オンプレミス環境で稼働している既存のデータレイクやデータウェアハウスをこれらのサービスに移行する場合にはあらためて設計し直す必要があるものの、将来を見据えたデータ基盤を構築する際の有力な選択肢と言えるでしょう。

ちなみにOracle、IBM、SAPなどオンプレミス製品を扱うベンダーは、オンプレミスとクラウドのハイブリッド環境で稼働するソリューションを提供しています。すでに稼働中のオンプレミス環境を維持しながらクラウドを活用したいという企業には最適です。

  • IaaSやPaaSを使用したデータレイク・データウェアハウスの説明図版

データレイクやデータウェアハウスに特化した専用サービスを利用する

これからデータレイクやデータウェアハウスを構築する場合、ほとんどの企業でクラウド利用が前提となるでしょう。その際にどのベンダーのどのサービスを選べばよいのでしょうか。そもそも「データレイクとデータウェアハウスのどちらを構築すべきなのか」など事前に検討しなければならないことは多々ありますが、上述した既存のクラウドサービスが保有するIaaSやPaaSに加え、「データレイク/データウェアハウス専用につくられたサービス」も選択肢に入れることをおすすめします。たとえば、IaaSのように技術者自らが組み立てるものではなく、インフラ、プラットフォーム、アプリケーションなどのトータル的なサービスを受けられるSaaS(Software as a Service)を利用することも選択肢として有効です。SaaSであれば導入の負荷も少なく、保守・メンテナンスもサービス側で対応してくれます。使う側のメンテナンス不備などにより発生してしまうリスクを軽減できる点は大きなメリットと言えるでしょう。最近では「Snowflake」と呼ばれる高度なデータプラットフォームを利用できるSaaS型サービスも出てきています。トータル的にサポートしてくれる専用サービスを選ぶことで、導入がスムーズに完了し、その後の運用も安心して続けることができるでしょう。

クラウドサービス選択時の導入・構築・運用の注意点

クラウドデータレイク/クラウドデータウェアハウスは、従来のオンプレミス製品に比べ、拡張性、柔軟性、コストなどあらゆる観点で優位性があります。しかしながら、データの格納先となるストレージリポジトリ自体がクラウド上にあるため、データを利活用する際のネットワークトラフィックやオンプレミス上のデータと連携する際のパフォーマンスに留意しなければなりません。また、社内の基幹業務システムにあるデータソースからデータを収集する場合、特にデータのアクセス権の管理や暗号化などセキュリティ対策面も十分に考慮する必要があります。

実際にクラウドデータレイク/クラウドデータウェアハウスを構築するときには、技術に詳しいデータベース/ストレージのスペシャリストが担当することになります。しかし、導入・構築作業のすべてを内製化することには、担当者の技術不足や、特定の人にしか対応できないことによるサイロ化などのリスクが伴い、本来の業務に支障を来たすおそれもあります。

また、各クラウドプロバイダーによって仕様や作法、組み合わせるサービスなどに違いがあるので、それぞれのクラウドとデータレイク/データウェアハウスに精通したクラウドインテグレーターに設計・構築・移行作業を委託するほうが無難でしょう。もしくは、上述した「Snowflake」のようなSaaS型サービスを選択することで、高度な技術をもったスペシャリストを数多く抱える必要もなく、構築時のリスクを軽減することも可能です。また、必要に応じてサービスの稼働監視・インシデント対応などを請け負うマネージドサービスの利用も検討したいところです。

データレイク、データウェアハウスの構築にオススメの専用サービス

IaaSやPaaSといった従来からあるクラウド活用の一歩先の手段としてデータレイク、データウェアハウスの構築に使われるようになってきた専用サービス。そうした流れの中で、データレイクとデータウェアハウスのどちらのニーズにも対応し、クラウドネイティブで構築されたデータプラットフォームとして注目されているのが先ほどから取り上げている「Snowflake」です。次回はSnowflakeとはどのようなサービスで、どんな特長・メリットがあるのか、なぜ多くの企業に採用されているのかについて解説します。

[PR]提供:Snowflake