データレイクとデータウェアハウスの利点を組み合わせたデータ管理アーキテクチャであるレイクハウス。これを提唱したのが、Databricksだ。DatabricksはSpark、Delta Lake、MLflowなどのオープンソース技術を活用し、レイクハウスアーキテクチャを具現化する統合プラットフォームを提供する。最近はこのレイクハウスを使いAIの機能を取り込んで、「データ・インテリジェントプラットフォーム」を目指している。
レイクハウスでデータサイロを解消し、インテリジェントプラットフォームでデータ民主化を
従来のデータ活用では、データウェアハウスへのデータ蓄積とBI(ビジネスインテリジェンス)ツールによる可視化、レポーティングが主流だった。昨今はAIの技術要素が入ったことで、自動化や予測、さらに何かを生成するためにデータが使われる。AIのためにデータを扱うには、さまざまな要素技術が必要だ。
従来のデータウェアハウスやETLなどの仕組みはもちろん、非構造化データも使うのでデータレイクが必要となり、IoTのデータを使いたければストリーミングデータを扱う仕組みも欲しい。
「これらさまざまな技術要素を組み合わせることとなり、それに苦労することになります」と指摘するのは、データブリックス・ジャパン 代表取締役社長の笹俊文氏だ。
多くの企業では、技術要素がバラバラなのでデータがサイロ化してしまう。その状況では、BIによるデータ活用はできたとしてもなかなかAIまで辿り着けない。仮にAIの取り組みができても、需要予測などデータガバナンスが厳しく求められないものは良いが、顧客の満足度を向上するような取り組みは難しい。
顧客にAIで何らか価値を提供するとなれば、責任あるAIが求められるからだ。AIの学習などに利用したデータはどのようなもので、その利用権限や来歴などを明らかにするデータのガバナンスが求められるのだ。データがサイロ化している状況では、データガバナンスを確保するのは難しいと笹氏は指摘する。
Databricksのレイクハウスは、非構造化、半構造化データを1つに集めるデータレイクとしても、構造化データを蓄積するデータウェアハウスとしても機能する。あらゆるデータを一元的に集められるので、データのサイロ化は解消できる。