米Databricks(データブリックス)は6月27日~同30日、年次のカンファレンス「Data + AI 2022」を米国サンフランシスコのMoscone Centerで開催した。160カ国以上の国・地域から現地参加者が約5000人以上、オンラインでの参加者は約5万人にのぼり、ブレイクアウトセッション14トラックを含めて、240以上のセッションが行われた。基調講演の開催日である同28日、29日は特に来場者が多く、初日(28日)の基調講演の様子を本稿ではレポートする。

同社は、OSS(オープンソースソフトウェア)の分散処理フレームワーク「Apache Spark」のクリエイター20人により、2013年にサンフランシスコで創業した。

DWH(データウェアハウス)とデータレイクの両機能をカバーするアーキテクチャ「Lakehouse」は、クラウド上でApache Sparkですべてのデータにアクセスし、Amazon S3、Azure Data Lake Storage(ADLS)、HDFS(Hadoop Distributed File System)など、既存のデータレイクファイルストレージ上に設置されるオープンソースストレージレイヤ「Delta Lake」、ML(機械学習)のライフサイクルを管理する「MLflow」、DWHである「Databricks SQL」などのサービスで構成している。

データとAIの課題

まず、基調講演で登壇したのは米Databricks Co-founder and CEO(共同創業者兼最高執行責任者)のAli Ghodsi(アリ・ゴディシ)氏だ。昨今のデータとAIが多くのビジネスに活用されているケースをふまえて、同氏は次のように話した。

「データ解析とAIがいかに業界全体を破壊しているかということです。あらゆる部署であらゆるユースケースで使われ、世界を完全に変えることができる方法だったのです。考えてみれば、Googleのような会社は、今日存在すらしていなかったでしょう。AIがなかったら、AltaVista(米国の検索エンジン企業、2013年にサービス停止)を使っていたでしょうし、TwitterもAIがツイートを選んで、あなたが見たいものを表示してくれなかったら、機能すらしなかったでしょう」(ゴディシ氏)

  • 米Databricks Co-founder and CEOのAli Ghodsi氏

    米Databricks Co-founder and CEOのAli Ghodsi氏

現在では自明のことだが、データドリブンの名のもとに大企業でもデータとAIの活用が増加している。同氏は、AT&Tの事例を引き合いに出し、顧客データとストリーミングイベントを組み合わせ、店舗、オンライン、サポートセンターで1日あたり1億件のトランザクションをスコアリングする100のMLモデルを稼働させているという。

同氏は「これらをLakehouseに結合したことで、リアルタイムで1億8千万人の加入者に詐欺行為の警告を提供することができています。つまり、誰かがあなたのアカウントをハッキングしようとしていることをリアルタイムで知ることができるのです。データ解析とAIがなければ、このようなことは不可能だったでしょう。では、これらの企業はどのようにそれを行っているのでしょうか?」と疑問を投げかけた。

ゴディシ氏は、データとAIの成熟度曲線を示しつつ、多くの企業は生のデータを取得、クリーニングを経て、レポート作成、クエリを実行することからスタートするが、それ以上のモデル予測や規範的な分析、意思決定の自動化になると予測技術を使いはじめるといい、「予測技術を使いはじめた瞬間からデータとAIから真に競争優位を得るときであり、破壊的なものになるのです」と説明する。

ただ、組織によっては技術的な格差がある。そのため、従来はデータをDWHに置き、BI(Business Intelligence)に接続、ダッシュボードを作成して分析することが最も簡単な方法だったが、未来について質問(ex.次は何が売れるのかなど)したくなると、それまでのスタックが機能しなくなるという。

そのため、生データの取得からクエリ実行以上を目指すのであれば、やり直しが必要だと指摘している。というのも多くの組織において、大半のデータはデータベースに格納されており、ログやソフトウェアが生成する画像、音声テキストなどのデータがDWHにコピーされて、BIツールに接続される。

しかし、リアルタイムのストリーミングや機械学習を行う場合は、生のファイル形式でデータベースに直接アクセスしなければならず、これは大きな問題であるとともに組織のスピードを低下させるとも述べている。

理由としてはデータのコピーが2つあると同時に、重複してサイロ化されている点を挙げている。

そして、同氏は「データオペレーションという業界が形成されましたが、彼らが行うのは点在する異なるデータのコピーを調整することだけであり、これが第1の問題です。第2の問題は、データの安全性。片方にはテーブルとカラムという互換性のない2つのモードがあり、片方にはファイルがあります。もし設定を1つ間違えると、アクセスできないはずのデータに誰かがアクセスできてしまうかもしれません。つまり、これは大きな問題なのです。このように、セキュリティ面では大きな隔たりがあります。もちろん、ダッシュボードをメインで動かすようなユースケースはあり得ません。うまく機能しません」と断言した。

これは、データサイエンスやリアルタイムアプリケーションをDWH上で使用することができず、データを引き出してコピーしていることが現在の状況だという。

データとAIをつなぐ「Lakehouse」

ゴディシ氏は「ファイルやテーブル、機械学習モデル、ダッシュボード、リアルタイムストリーミング、機械学習、分析などを1つのサイト上で実行できれば、どうでしょうか。それを実現するのがLakehouseです」と力を込める。

  • Lakehouseの概要

    Lakehouseの概要

ゴディシ氏は、ユーザーからLakehouseが評価されているポイントについて「シンプルであること」「マルチクラウドアプローチ」「オープンであること」の3つだという。

さまざまなデータリポジトリを用意し、それらを移動させている必要がなく、すべてのクラウドに対応するとともに、ベンダーロックインを望まない企業・組織でも利用できるシンプルさが第1の理由と語る。

第2の理由は、すべてのクラウドに対応するマルチクラウドアプローチ。ユーザーは異なる経路で何度も同じことを繰り返したくないと考えていることから、すべてのクラウドに対応するマルチクラウドアプローチが必要だという。

第3の理由は企業の多くがオープンソースやオープンスタンダードを求めており、これは1つのベンダーに縛られたくないということであり、エコシステムに関してもオープン性が非常に重要だとしている。

事実、Databricks SQLをTPC-DS(ビッグデータの性能評価基準) 3TBで総ランニングコストのベンチマークを行った結果、そのほかのCDW(Cloud Data Warehaouse)ベンダーと比較して、コスト面で最大30分の1の開きがあり、常に進化を続けている。