Googleは過去15年にわたりビッグデータ基盤を構築してきた。この取り組みが今、新しいビジネス価値を生み出す機械学習の領域にシフトしつつある。本稿では、5月23日から24日にかけて開催された「ガートナー データ&アナリティクス サミット 2017」にてグーグル・クラウド・ジャパン Google Cloud パートナービジネスマネージャ 山本圭氏が講演した「データが拓くビジネスの未来~Google Cloudの機械学習技術とともに~」の概要をお届けする。
Googleがデータ解析基盤をクラウドで提供するワケ
Googleは「世界中の情報を整理し、世界中の人々がアクセスできて使えるようにする」ことを自社の使命としている。世界中のデータを扱わなければならないGoogleにとって、爆発的に増加するデータをうまく処理する仕組みは必須であり、新しい技術を次々に開発することは、社内エンジニアにとって非常に重要な仕事だ。
グーグル・クラウド・ジャパン Google Cloud パートナービジネスマネージャ 山本圭氏 |
また、Googleの技術はGoogle自身が活用するだけでなく、エンドユーザーにもオープンなサービスとして提供されている。「Google Cloud Platform」(以下、GCP)は、Google検索やYouTubeなどのサービスと同じ基盤とインフラを利用していることが大きな特徴となっており、コンピューティング、ストレージとデータベース、ビッグデータ、機械学習などのサービスを提供している。2016年11月には東京リージョンが開設され、企業は国内から、より遅延の少ないサービスを活用できるようになった。
一般に、データ分析は気軽に着手できるものではない。ビジネスユーザーは分析だけに集中したいと考えるが、データウェアハウス(DWH)の準備からサーバの調達、構成の冗長化、セキュリティ、スケールアップやダウンに備えたインフラ設計などに至るまで、明確にしなければならないシステム要件は多く、その全ては費用や時間的な負担につながる。GCPは、こうした課題に対する解の1つとなり得るわけだ。
山本氏は、「GCPのデータ分析関連サービスの基本的な考え方は、ユーザー企業側でSQL文だけ書いてくれれば、その他の管理はGoogleがやるという役割分担です。ビジネスユーザーには、インサイトの獲得に集中してほしい」と述べた。
GCPが提供するビッグデータ解析プラットフォーム「BigQuery」
「実はGoogleにはビッグデータという概念はなく、全てのデータは大小を問わず処理する対象」(山本氏)なのだという。センサーならば温度を感知した時であったり、Webならばアクセスしてログが残った時であったりと、データには必ずどこかで「誕生の瞬間」がある。そして、データ分析のプロセスは「保存」と「分析」を連続的に繰り返すものだ。このプロセスを素早くタイムリーに運用するためのサービスとして、山本氏はGCPで提供されるビッグデータ解析プラットフォーム「BigQuery」を紹介した。
BigQueryは、大規模なアナリティクスのためのDWHをフルマネージド型で提供するサービスであり、データを貯める機能と、貯めたデータを分析する機能を持つ。例えば、3カ月分のコンビニの売上データから製品ごとの売上を集計する処理を実行しようとすると、20億行超のデータを読み、5秒程度で結果を戻してくれる。
スプレッドシートからの入出力でも同様の処理性能を発揮し、スプレッドシートによる定型報告だけではなく、ダッシュボードへの出力もできることを山本氏はデモで示した。料金は1TBの保存に月額20ドル(90日間経過で月額10ドル)と、既存のDWHと比べると安価だ。山本氏は、代表的なユーザーとして、メルカリ、「ホットペッパー」「じゃらん」を運営するリクルートライフスタイル、音楽配信サービスを提供するSpotifyなどの名前を挙げた。