米Databricksは11月13日、データアナリストがこれまでデータウェアハウス(DWH)のみを対象としていたワークロードをデータレイク上で実行できるようにする「SQLアナリティクス」の提供を開始した。同サービスの提供に先立ち、メディア向けにオンラインによる説明会が開催された。

クラウド型DWHと比べ最大7倍のパフォーマンス

Databricksは、2013年にCEOのアリ・ゴディシ氏をはじめとしたApache Sparkのクリエイターが米サンフランシスコで創業し、グローバルで1500人以上の従業員を抱え、日本法人であるデータブリックス・ジャパンは2019年に設立。

主力製品はApache Sparkに加え、マシンラーニングのライフサイクルを管理する「MLflow」、AWS S3、Azure Data Lake Storage(ADLS)、HDFS(Hadoop Distributed File System)をはじめとした既存のデータレイクファイルストレージ上に設置されるオープンソースストレージレイヤ「Delta Lake」、ダッシュボードを提供する「Redash」などをAmazon Web ServicesやMicrosofto Azureのマネージドサービスとして、自社のプラットフォームをクラウド上のみで提供しており、AI/機械学習に特化し、オープンソースに強みを持つ。

  • Databricksの概要

    Databricksの概要

SQLアナリティクスは、DWHのパフォーマンスとデータレイクの経済性を組み合わせ、従来のクラウド型DWHと比べて最大7倍の価格とパフォーマンスを実現し、11月18日からパブリックプレビューとして公開を予定している。データエンジンであるDelta Lakeをベースに構築し、ユーザーはデータの複数のコピーを保存したり、独自のフォーマットでデータをロックしたりすることが不要になり、データレイク上でBIのパフォーマンスを実現できるという。

また、使いやすい自動スケーリングのエンドポイントを提供することで、ユーザーの負荷が高い場合でもクエリ遅延を常に低く抑えること可能なことに加え、同社のクエリ実行エンジンである「Delta Engine」を使用して、大規模なデータセットと小規模なデータセットの両方に対して迅速にクエリを完了させることも可能。

さらに、TableauやMicrosoft Power BIなど、主要なBIツール用のネイティブコネクタを備えているため、SQLアナリティクスを既存のBIワークフローに統合して、完全なデータを対象に分析を行うことができる。そのほか、SQLネイティブのクエリとビジュアライゼーションのインタフェースにより、従来のBIツールにアクセスできないアナリスト、データサイエンティスト、開発者でも組織内で簡単に共有できるダッシュボードやレポートを作成することを可能としている。

次世代アーキテクチャとしての「Lakehouse」とは

SQLアナリティクスを実現するために、同社では次世代アーキテクチャとして「Lakehouse」を提唱している。データブリックス・ジャパン パートナーソリューションズアーキテクトの竹下俊一郎氏は、Lakehouseに関して「データレイクの“Lake”とDWHの“House”を掛け合わせた造語で、2つの良いとこ取りをしている。すべてのデータをすべてのユースケースで取り扱うことを可能とし、単一のプラットフォームでビジネス要件を満たす」と説明する。

  • データブリックス・ジャパン パートナーソリューションズアーキテクトの竹下俊一郎氏

    データブリックス・ジャパン パートナーソリューションズアーキテクトの竹下俊一郎氏

2015年にガートナーが定義したロジカルDWHは、すべてのデータをすべてのユースケースで取り扱うことが可能な“特効薬”で複数のプラットフォームの組み合わせでビジネス要件を満たす必要があると指摘していたが、2015年時点では特効薬自体が存在しなかったほか、すべてのデータ、ユースケース、ユーザーに対して、BIツール、ML/DL、DWH、データレイクと実際にはサイロ化していたという。

  • ロジカルDWHではサイロ化してしまうという

    ロジカルDWHではサイロ化してしまうという

一方、Lakehouseはそれらを包括的に管理することを可能としており、事例として前田健太投手が在籍するミネソタツインズを紹介し、同球団ではチーム戦略の再構築としてデータブリックスを導入した。目標としたチーム戦略は、まずは勝利に貢献している選手や、その貢献度の数値化から取り組み、応用として次の球種の予測をはじめとしたリアルタイムでのコーチの指示など、データにもとづくものとした。

  • ミネソタツインズの事例

    ミネソタツインズの事例

そのために選手の行動データにマスターデータを掛け合わせた上で、機械学習やモンテカルロ法などの技術を駆使し、選手プロファイルを精緻化した。つまり、データ連携(データレイク)ではバッチとストリーミングを融合させ、データ加工&洞察(機械学習基盤)は機械学習などの技術を活用し、最終的にはSQLアナリティクスを用いて選手プロファイルをダッシュボード上で把握するチーム戦略(DWH)を立案することを可能にした。これら一連のフローを可能としているのがLakehouseということだ。

竹下氏は「Lakehouseはツインズのデータ連携からデータ加工&洞察、チーム戦略の浸透までをエンドツーエンドで実現している。1980年代はDWH、2010年からはHadoopを中心としたデータレイク時代を経て、われわれはLakehouseとして幅広い分野でデータブリックスの統合分析プラットフォームを提唱している。SQLアナリティクスはBIレポーティング、Redash、デルタエンジンが含まれており、DWHとデータレイクのワークロードすべてが数クリックでクラウド上で手に入る」と力を込めていた。

Lakehouseによる企業のAIユースケースは、顧客体験の向上、不正検知、需要予測、SCM最適化、ゲノム解析などとなる。効果としては、AI/機械学習の活用による収益向上、レガシー基盤からのダウンストリームによるコスト削減、そしてデータエンジニア・サイエンティストなどの生産性向上が見込めるという。

  • Lakehouseの全体像

    Lakehouseの全体像

一般的なクラウドDWHに対する優位性としてはビジネス領域(BI/ダッシュボード/自由検索)に加え、データエンジニアリング・データサイエンス領域の業務に適用が可能。また、SQLやPyshon、Scala、Java、Rなどの言語に対応するとともに、構造・半構造(JSON、XML)、非構造(画像、動画、音声)を含む全データに対応している。

さらに、バッチワークロードのほかストリーミングワークロード(IoTのニアリアルタイム異常検知など)をサポートし、クラウドストレージ(S3/ADLS)にオープン形式で格納するため追加コストが必要なくベンダーロックインを回避できるとしている。

  • 一般的なクラウドDWHに対する優位性

    一般的なクラウドDWHに対する優位性

「データとAIの民主化」を推進するデータブリックス

同社は“データとAIの民主化”を掲げており、データエンジニアリング、データサイエンス、データアナリティクスの分野において、統合データ分析基盤の提供により実現を目指しており、この点についてはデータブリックス・ジャパンの竹内賢佑氏が説明した。

  • データブリックス・ジャパンの竹内賢佑氏

    データブリックス・ジャパンの竹内賢佑氏

今後、世界で生成される年間データ総量は2018年の33ZB(ゼタバイト)から2025年には175ZBに増加し、同年にはパブリッククラウドに保存されているデータの割合は49%となり、2021年生成されるデータの非構造化データの割合は80%を占めることなどが予測されている。

そのような状況を踏まえ、竹内氏は「パブリッククラウド上の膨大な非構造データを他のデータと統合し、AIや機械学習を駆使することで、いかに迅速にインテルジェンスを抽出することができるのかが今後3~5年間で重要なポイントになる。世の中では“AIの民主化”についてはよく耳にするが、そのためには“データの民主化”が前提になる。活用できない・されていないデータにメスを入れて活用し、新たな価値と発見を生み出すことが“データとAIの民主化”であり、われわれではこれを推進していく」と力を込めていた。

  • データとAIの民主化を実現するLakehouse

    データとAIの民主化を実現するLakehouse