GoogleのBigQueryからAmazon Athenaに移行

ナビタイムジャパン ACTS事業 クラウド担当 田中一樹氏

続いて、「Amazon Athena」を導入しているナビタイムジャパンが説明を行った。まず、同社 ACTS事業 クラウド担当の田中一樹氏が、同サービス導入の経緯を説明した。

田中氏によると、同社が扱っている主なログには「位置情報」「プローブデータ」「経路検索条件データ」があるが、これらを分析する際は「個人情報に配慮すること」が重要になるという。これらのログは現在、S3に保管されており、S3からログを取得して分析を実施している。

現在のログ分析基盤は「Amazon Athena」が利用されているが、ここに至るまで、オンプレミス、AWS、GoogleのBigQueryの利用を経ている。

オンプレミスの環境はHadoopと「Apache Hive」を活用。同環境では「アクセスログの集計に数時間から数日かかっていた」「失敗したら再度やり直し」といったデメリットがあったため、AWSに移行することにしたという。

AWSへの移行で、S3にデータを保存する際にマスク処理を行ってKMSで暗号化してセキュリティが向上したほか、アクセスログの集計も数時間で行えるようになった。

その反面、田中氏は「当然ながら、AWSは使った分だけ料金がかかったので、コストが増えてしまった。また、失敗したらやり直しという課題は解決されなかった」と話した。

これらの課題を解決すべく、検討されたのが「BigQuery」だ。S3はそのまま利用し、GoogleのCloud Storageにデータを転送して、BigQueryを導入した。その結果、アクセスログの集計は数秒から数分と劇的に速くなり、集計に要するコストも数10分の1になり、失敗してもすぐにやり直しが可能になったという。

しかし、先述したように、S3からCloud Storageへのデータ転送を行うようになったことで、データがインターネット網を通過することになり、暗号化したデータを復号する手間がかかるようになった。さらに、BigQueryはアカウントを持って入ればどこからでもアクセスできるうえ、AWS Identity and Access Management(IAM) のように権限を詳細に管理できるツールがなかったことから、「社内のコンプライアンス担当から、セキュリティの不備を指摘され、BigQueryの利用をやめざるをえなくなった」と田中氏。

そこで、「Amazon Athena」を利用することになった。その結果、AWSからGoogleへのデータ転送、Cloud Storageへのデータ保存が不要になったほか、Athenaへのアクセスを社内からのみに限定、利用できるログをS3のバケットとIAMポリシーで限定することで、セキュリティも確保することが可能になったという。ただ、田中氏は「Athenaは十分高速だが、スピードではBigQueryには劣るので、今後に期待したい」と語った。

Athenaがあるから実現した「道路プロファイラー」

ナビタイムジャパン 交通コンサルティング事業 データサイエンティストの加賀谷駿氏

「Amazon Athena」を用いた交通分析システム「道路プロファイラー」については、交通コンサルティング事業 データサイエンティストの加賀谷駿氏が説明した。

交通コンサルティング事業部では、ナビゲーションシステムで培ってきたデータ・技術・ユーザー基盤を生かし、交通・移動に関するデータ提供・分析・コンサルティングを行っている。

道路プロファイラーでは、同社のアプリ「車の走行実績データ」と「アプリ利用者の属性情報」と用いて、車の移動に特化した集計を行うことができる。例えば、「断面交通流」では、車がどこから来て、どこに行くのかを可視化することが可能で、車種や居住地もあわせて分析することで、広告戦略に役立つことができるという。

「道路プロファイラー」の「断面交通流」による分析結果の例

久保田氏は、「道路プロファイラー」は安価・高速・簡単なビッグデータの集計を実現しているが、それは「Amazon Athenaのおかげ」と述べた。

例えば、Athenaは分析量に応じて、サーバの使用量を自動で調節するため、複数のサーバで処理を分散させて高速に処理できる。また、「Amazon Athena」は利用しない間はサーバを別な利用者と教諭できるため、AWS EMRと比べてコストを80%削減できたという。