企業には売り上げデータや生産管理データなど、さまざまなデータがあり、その管理としてデータベースシステムが活用されている。これらのデータベースは、データウェアハウス(Data Ware House、以下DWH)という形で明確に定義されていないかもしれないが、長期間にわたり大量のデータが集約されているデータベースシステムが、自組織内に1つや2つはあるはずだ。
一般的に、DWHはその名のとおりデータの”倉庫”としてデータが蓄積され、売り上げ推移や傾向など組織内でさまざまな切り口での分析やデータ抽出といった用途で利用されている。データ量の爆発的増加などにより、組織の中ではDWHシステムの維持や運用のための専門的な知識を持つITスタッフなど人的リソースが必要となり、大きなコストがかかるようになってきた。また、オンプレミスのDWHシステムを購入して利用する場合、数年に1回は必ずハードウェアやソフトウェアの更新による入れ替えも必要だ。このように近年では、DWHに関する運用やコストなどの問題が多くの企業で顕在化・拡大化している。
クラウドでDWHを利用するメリット
Redshiftの災害対策や冗長性の確保 ⇒ PDFのダウンロードはこちら |
クラウドといえば、仮想マシンやストレージのサービスが圧倒的にメジャーであり、クラウドでDWHという発想はないかもしれない。しかし、クラウドでDWHを利用することは利用者、管理者が持つ課題の多くを解決してくれる。その有効性は、DWH利用に特化したデータベースであるAmazon Redshift(以下Redshift)が、Amazon Web Services(以下AWS)の中で伸び率の非常に高いサービスの1つとなっていることで、証明されている。ここでは、クラウドのDWHであるRedshiftを利用するメリットである経済性・スピード・運用性・柔軟性の4つの視点のうち、2つを簡単に解説しよう。
優れた経済性
通常DWHは企業にとって利用価値が高い反面、設備投資や電力、さらには維持管理や保守費用のコストが必要になる。特に近年ではデータ漏えいなどセキュリティ対策が必要になるケースも考えると、まさにコストの塊といえる。しかしRedshiftは、設備投資にかかるコストや電力、データセンターのコストはすべて利用料に含まれるため、従量課金により使った分を支払うだけとなる。また、セキュリティはクラウド全体で担保されており、ほかのAWSの場合は保守費用もクラウドのサービスに含まれるため、個別に保守契約を結ぶ必要もない。
圧倒的なスピード
次に、圧倒的に違うのがスピードだ。ここでいうスピードには、準備から設置までの手続きのスピードと、DWHシステムの処理性能としてのスピードがある。手続きスピードは、Redshiftの場合、クラウド上でフルマネージド型(アプリケーションや性能、キャパシティの管理以外はAWSが維持管理の責任をもって運用)のDWHが提供されるので、まずハードウェアにまつわることは一切考える必要がない。これにより意思決定にかかる時間を短縮し、DWHの中身の検討に多くの時間を割くことができる。また、DWHシステムとしてのスピードはノードの種類や台数、さらにはディスクの種類などを柔軟に選択でき、かつDWHに最適化されたシステムであるため、大半のケースで十分な性能を出すことが可能だ。
本稿で提供するPDFは、クラスメソッドがこれまで培ってきたAWSの開発・運用実績や技術ブログ「Developers.IO」の執筆で蓄積したナレッジを体系的にまとめたドキュメントシリーズのうちの1つである。DWHのクラウド移行のメリットや技術的な注意点の解説から、Redshiftを駆使し、クラウドの利点を最大限に活用したDWHシステムの移行・設計情報までを網羅的に紹介している。今までオンプレミスの環境でDWHを利用している、あるいはDWHの移行や利用を検討している方、さらに「DWHをクラウドで?」という疑問を持っている方に、ぜひ一読していただきたい。
提供レポートのご案内
クラスメソッドテクニカルライブラリー
データウェアハウスAWS移行編≪目次≫
- 1. なぜクラウドでDWH なのか?
- 2. クラウド型DWH Amazon Redshiftとは
- 3. Amazon Redshiftを使ってみる
- 4. Amazon Redshiftにデータを移行してみる
- 5. NetezzaからRedshiftへの移行
[PR]提供:クラスメソッド