アマゾン ウェブ サービス ジャパン 技術本部エンタープライズソリューション部 部長 瀧澤与一氏

アマゾン ウェブ サービス(AWS) ジャパンは11月10日、 AWSのデータレイクのアーキテクチャと最新導入事例に関する説明会を開催した。説明会では、AWSのサービスを導入しているナビタイムジャパンの事例が紹介された。

大規模なデータ分析で求められるデータレイク

初めに、アマゾン ウェブ サービス ジャパン 技術本部エンタープライズソリューション部 部長の瀧澤与一氏が、データ活用に有用な同社のデータレイクのアーキテクチャ、データ分析に関するサービスを紹介した。

データレイクとは、データを蓄積するための基盤であり、瀧澤氏はその特徴として「多様なデータを一元的に保存」「データが失われない」「容量制限からの解放」「APIですぐにアクセスできる」を挙げた。

こうした特徴から、データレイクは「幅広いソースに由来する複数のデータタイプを管理し、構造化・非構造化データを集中リポジトリに保存したい」といった、昨今のデータストレージおよび分析ソリューションにおけるニーズに応えることができるという。

AWSでは、データ分析のフローを4つのカテゴリー「収集」「データレイク(保存)」「分析」「可視化」に分けて考えている。それぞれのカテゴリーについて、サービスを提供している。

AWSのデータ分析に関するサービス群

瀧澤氏は、データ分析に関するサービス群のうち、カギとなる4つのコンポーネントについて紹介した。

データ分析においてカギとなる4つのサービス

1つ目のコンポーネントが、データレイクの役割を果たす「Amazon S3」だ。同社のさまざまなサービスがS3に保存されたデータにアクセスできる。 瀧澤氏は、S3による構築したデータレイクのメリットとして「上限がないためサイジング不要」「99.99999999999%の耐久性」「安価」「APIを介したアクセス」を挙げた。ちなみに、S3の東京リージョンの価格は、スタンダードプランが1GB当たり0.025ドル、標準-低頻度アクセスプランは1GB当たり0.019ドルだ。

残りの3つのサービスは、分散処理が可能なデータ分析サービス「Amazon Redshift」「Amazon EMR( Elastic MapReduce)」「Amazon Athena」となる。最も新しいサービスが「Amazon Athena」だ。以下のように、それぞれマネージドされる環境、準拠している標準技術、分散処理が異なる。

AWSの分散処理が可能な分析サービスの特徴

「Amazon Redshift」はフルマネージドのデータウェアハウス(DWH)サービス。データサイズは2PBまで拡張可能で、超並列、カラムナ型DBエンジンで高速なSQL処理が行える。利用した分だけ料金を支払えばよいため、従来のDWHの10分の1のコストで実現できるという。

また今年には、S3上に置いたファイルを外部テーブルとして直接参照可能にするサービス「Redshift Spectrum」の提供が始まった。同サービスによりS3上のファイルを高速に処理することができる。

「Amazon EMR」は、Hadoopフレームワークを提供し、Apache Spark、HBase、Presto、Flink といった他のフレームワークの実行を可能にする。数クリックでセットアップを完了できるという。

「Amazon Athena」は、S3に保存したファイルに直接SQLを実行できる環境で、高速な動作を特徴とする。また、サーバ管理は不要で、ファイルを置いて、SQLを書くだけで利用できるという。

可視化に関しては、同社の「Amazon EC2」にサードパーティのBIツールを組み合わせたり、BIサービス「Amazon QuickSight」を使ったりと、用途に応じて選択可能となっている。