Amazon Web Servicesは毎年、年次イベント「re:Invent」でさまざまな発表を行うが、アナリティクス関連のサービスも発表された。今回、アナリティクスを担当しているHerain Oberoi氏に、新サービスがリリースされた背景、新サービスのポイントについて聞いた。
アナリティクスサービスのフレームワーク「レイクハウスアーキテクチャ」
近年、データの種類や量が急激に増えており、多くのユーザーはデータをデータレイクにまとめているが、同時に、データウェアハウス(DWH)やデータベースも利用している。こうした環境で、データを動かすとなると問題が生じるとOberoi氏は指摘した。
例えば、昨年のデータを使いたい場合、本来は、データレイクからデータを取り出したいのに、一度データウェアハウスにデータを投入してクエリーをかける必要がある。
AWSではユーザーがデータを容易かつ迅速に使いこなせるようにするため、アナリティクスサービスを提供しているという。Oberoi氏は、同社のアナリティクスサービスは「レイクハウスアーキテクチャ」というフレームワークの下で、提供されていると語った。AWSでは、データウェアハウスとデータレイクの両方にデータを保存して活用するアーキテクチャを「レイクハウス」と呼んでいる。
oberoi氏は、「レイクハウスアーキテクチャ」」の特徴として、「迅速に構築可能」「拡張性」「簡便性」「簡単」「セキュリティ、コンプライアンスに対応」「コストパフォーマンス」を挙げた。つまり、レイクハウスアーキテクチャにおいては、データレイクからデータをスピーディに活用でき、必要があれば容易に拡張でき、すべてのデータにまたがった形でコンプライアンスが担保される。
AQUA for Amazon Redshift
「re:Invent 2020」で発表されたアナリティクスサービスの1つが「AQUA(Advanced Query Accelerator) for Amazon Redshift」(2021年1月に一般提供開始予定)だ。これはAWSのデータウェアハウス「Amazon Redshift」のRA3インスタンスで利用できる拡張機能だ。
AQUAはAmazon Redshift専用のハードウェアアクセラレーターによって高速化された新しい分散型キャッシュで、ストレージレイヤーにコンピュート機能を付加することにより、2つの間におけるデータ移動を不要とする。これにより、Redshiftにおいて、他のクラウドデータウェアハウスに比べて最大10倍のクエリパフォーマンスを実現するという。
oberoi氏は、「AQUAはパフォーマンスとコストの双方において、アドバンテージを持っている」と語った。
AWS Glue Elastic Views
2つ目の新サービスが開発者をターゲットとした「AWS Glue Elastic Views」だ(現在はプレビュー版)。これは、AWSの複数のデータストアに格納されたデータを自動的に組み合わせて、AWS Glue(以下Glue)の技術を使ってマテリアライズドビューを簡単に構築することで、データの移行を容易にするサービスだ。
具体的には、AWS Glue Elastic Viewsにより、SQLを使って各種データストアから好みのデータを抽出して組み合わせ、データのマテリアライズドビューを作成することができる。
oberoi氏は、「データをコピーして組み合わせることは実に煩雑であり、それを実行するAWS Glue Elastic Viewsは複雑性を解消することが可能。大元のデータが変更された場合も自動で反映される」と語った。ソースのデータベースに変更があった場合、Elastic Viewsからのアラートが発信され、開発者は変更に応じてマテリアライズドビューを調整できる。
Amazon QuickSight Q
アナリティクス関連の3つ目の新サービスが「Amazon QuickSight Q」となる。oberoi氏は同サービスについて「AWSとして初のBIサービスであり、アナリティクス関連の目玉の新サービス」と語っていた。
「Amazon QuickSight Q」はAmazon QuickSightに機械学習ベースの機能を追加するもので、ユーザーは同サービスを利用することで、日常の言語でデータに関する質問を尋ねて、数秒で正確な回答を受け取ることができる。
oberoi氏に類似のサービスとの違いを尋ねたところ、「これまで、既存のサービスでは機械学習用のモデルを構築する必要があったが、Amazon QuickSight Qは自動でモデルを構築し、既に学習も行っているので、すぐにサービスを提供することができる」と語った。
Amazon QuickSight Qはディープラーニングと機械学習(自然言語処理、スキーマ理解、SQLコード生成のためのセマンティック解析)を用いて、ビジネスデータの意味と関係を自動的に理解するデータモデルを生成する。そのため、データモデルが構築されるまで数日、数週間もつ必要がないという。
oberoi氏は、コロナ禍において、企業は「予期せぬ事業拡大」「コスト削減」「ビジネスモデルの再定義」を迫られているが、いずれもデータを分析することで対処できると述べた。「われわれのアナリティクスサービスは、データの信頼性が高い形で、スピード感をもって意思決定につながるアナリティクスを実現できる」とoberoi氏。
そして、「レイクハウスアーキテクチャによって、これまでオンプレミスを中心に構築されたアナリティクスのインフラ環境のモダナイズを進めていきたい」と、oberoi氏はアナリティクス分野におけるデジタル化に対する意欲をアピールしていた。