6月末に米国サンフランシスコで米Databricksが開催した「Data + AI 2022」。本稿では、会期中に同社のCo-founder and Chief Technologist(共同創業者兼チーフテクノロジスト)であるMatei Zaharia(マテイ・ザハリア)氏にインタビューの機会を得たため、イベントで発表された新サービスを中心とした話を紹介する。
同社が提供するDWH(データウェアハウス)とデータレイクの両機能をカバーするアーキテクチャ「Lakehouse」は、クラウド上でApache Sparkですべてのデータにアクセスし、Amazon S3、Azure Data Lake Storage(ADLS)、HDFS(Hadoop Distributed File System)など、既存のデータレイクファイルストレージ上に設置されるオープンソースストレージレイヤ「Delta Lake」、ML(機械学習)のライフサイクルを管理する「MLflow」、DWHである「Databricks SQL」などのサービスで構成している。
ザハリア氏はDatabricksのチーフテクノロジスト兼共同設立者であると同時に、米スタンフォード大学コンピュータサイエンス学部助教授も務める。
2009年にカリフォルニア大学バークレー校で博士号を取得した際にApache Sparkプロジェクトを開始し、MLflow、Delta Lake、Apache Mesosなど、広く使われているそのほかのデータ、機械学習ソフトウェアに取り組んできた。
現在では、Databricksとスタンフォード大でデータマネジメントと機械学習の幅広いプロジェクトを進めており、Apache SparkとML(機械学習)のライフサイクル管理を行う同社サービスである「MLflow」のオリジナルクリエイターという経歴を持つ。
基調講演において、同氏はデータ共有ソリューションの「Delta Sharing」と、データガバナンスソリューションの「Unity Catalog」について重点的に説明していた。そのため、インタビューの切り出しとして、まずは両ソリューションに関することから質問をスタートした。