グーグル・クラウド・ジャパンは6月2日、オンラインでデータクラウドに関する新サービスの記者説明会を開催した。

リアルタイムかつシームレスにデータの価値を引き出すことが必要

冒頭、Google Cloud 技術部長(アナリティクス/機械学習、データベース)の寳野雄太氏は「アナリティクスが年間で世界市場に与えるインパクトは15兆4000億ドルに達するが、データから具体的で測定可能な価値を見出せている企業は32%のみだ」と話す。

Google Cloud 技術部長の寳野雄太氏

Google Cloud 技術部長の寳野雄太氏

新型コロナウイルスの感染拡大の影響で、昨今ではあらゆる企業がデジタルトランスフォーメーション(DX)に取り組んでいる。

こうした状況において企業では、DXに求められるITシステムの要件は「データをリアルタイムに使いたい形で使えること」「データを部門をまたいで全社最適で活用できること」「変化に迅速に対応できるデリバリースピードを実現できること」の3つを挙げている。その背景はデータを利用したビジネスの意思決定と、ITアーキテクチャに迅速に反映し続けていくことが必要だからだという。

DXに求められるITシステムの要件

DXに求められるITシステムの要件

データ活用を実現するために、データに基づいた意思決定→予測と最適化による顧客体験の向上→変化に対応できるデータ環境が必要となり、同社のデータクラウドではアナリティクス、AI/機械学習、トランザクションにより、リアルタイムかつシームレスにデータの価値を引き出すとしている。

寳野氏は「このサイクルを回すことで変革をし続けることがDXの本質だ。Google Cloudでデータクラウドを構築すれば、どのようなサイズでもデータを処理して分析を行い、そのデータを利用して機械学習することで変化に対応可能な信頼できるデータベースの要件を兼ね備え、リアルタイム、シームレスに価値を引き出すことができる」と強調。同社のデータクラウドは「オープン」「インテリジェンス」「信頼性」「プラネットスケール」を重要視しているという。

データクラウドはリアルタイム、シームレスに価値を引き出すという

データクラウドはリアルタイム、シームレスに価値を引き出すという

ただ、実際のITの現場ではさまざまなデータ活用の課題があり、データウェアハウス、データレイク、データマート、データベースと複数のシステムによりデータが分散しており、データの信頼性が損なわれるほか、アクセスの可否などそれぞれ制御しなければならない状況に置かれている。例えば、コロナ禍においてよくあることが、ペルソナを明確にしてオンラインショッピングのコンバージョンレートを向上させようと試みると、さまざまな場所に分散したデータを合わせる必要があるという。

データ活用でDXを実現する3つの新サービス・機能

こうした状況に対して、同社では新サービスとして「Dataplex」(プレビュー版)を発表。これにより、データレイク、データウェアハウス、データベース、データマートの全体を対象にしたデータの一元管理、モニタリング、統制が可能になり、また多様な分析ツールやデータサイエンスツールがデータに安全にアクセスできるという。

分析者が利用すれば分散しているデータを一元的に整理し、インテグレーションでき、分析が可能。また、管理者からすれば、さまざまな場所に保管されてるデータへのアクセス制御を一元的にできるほか、一元的なライフサイクル管理も可能なため同じポリシー設定も可能としている。さらに、メタデータ、データ品質を自動的に検知してアラートを出すため、品質に問題があればすぐに気づくことができる。

「Dataplex」の概要

「Dataplex」の概要

一方、従来のものでは古くて信頼できないレポートやモノリシックで硬直的なアーキテクチャ、サイロ化して独立したデータベースのため、リアルタイムデータの複製のニーズがあるという。そのようなニーズに対応するため新サービス「Datastream」(プレビュー版)を提供する。

Datastreamは、サーバレスのCDC(Change Data Capture:変更データキャプチャ)とレプリケーションのサービス。異種のデータベース、ストレージシステム、アプリケーションの間でデータを同期して、リアルタイム分析、データベースレプリケーション、イベントドリブンアーキテクチャをサポートできる。また、OracleやMySQLのデータベースの変更ストリームをBigQuery、Cloud SQL、Google Cloud Storage、Cloud Spannerなど、Google Cloudサービスに配信を可能としている。

「Datastream」の概要

「Datastream」の概要

そして、従来の情報系、データプラットフォーム/データウェアハウスの課題として寳野氏は「データが発生しているアプリケーションからデータレイクにデータをコピーして、分析者がクエリでデータを抜いてファイルをコピーし、経営層やビジネスユーザーに渡している。ただ、このフローだとデータのトラッキングやデータの信頼性が損なわれてしまい、データがサイロ化してしまうことから、データの共有を組織内外で簡単にできることを重要視している」と述べる。

同社のスマートアナリティクスの根幹であるBigQueryのストレージは、マルチテナントアーキテクチャであり、コンピュートとストレージを分離し、データコピーを不要としている。組織横断でのデータ共有がワンクリックで可能であるため、データがサイロ化せずに組織内で活用ができるといった強みを持つ。そこで今回、BigQueryの新機能として「Analytics Hub」を追加した。

同機能は2021年第3四半期にプレビュー版の提供を予定し、BigQuery独自のアーキテクチャでコンピューティングとストレージを分離しているため、データパブリッシャーはデータのコピーを複数作成することなく、必要なだけ多くのサブスクライバーとデータを共有できる。

BigQueryではサーバのデプロイや管理が不要なため、データコンシューマは共有データの価値を引き出すことができ、ストリーミング機能により、リアルタイムでのデータの提供と利用が可能。また、BigQueryに組み込まれた機械学習、地理空間、自然言語の機能に加え、Looker、Googleスプレッドシート、データポータルなど、ネイティブにサポートするビジネスインテリジェンスツールも活用を可能としている。

「Analytics Hub」の概要

「Analytics Hub」の概要

最後に、寳野氏は「当社はエンタープライズ対応のクラウドネイティブ製品と、オープンでインテリジェントな信頼性の高い価値観にもとづき、統合データプラットフォームによる差別化を図っている。これにより、顧客ニーズに対応すること、分散したデータを扱うこと、安全でスケーラブルな方法で分析結果を共有することに注力している」と締めくくった。