「うちもIoTで何かやれ!」vs「でもどうやって!?」

ビッグデータやIoTの取り組みが活発化するなか、データを戦略的に活用したいというニーズが大きなうねりを見せている。「うちでも何かやれ!」――マネージャーからのそんな号令に頭を悩ませている担当者も少なくないはずだ。だが、口でいうほど簡単ではないのが実情。ノウハウや知見がない状況での取り組みは困難を極める。そうしたときに具体的なユースケースにもとづいたサンプルアプリケーションを使用できる環境があれば、どれほど大きな助けになるか。企業のビッグデータ活用を実現する統合プラットフォームを提供するTalendでは、製品の試用版ライセンスを組み込んだ試行環境をユーザーに公開し、このようなユーザーの要望に応えている。

「Talend Big Data Integration」などの製品を展開するTelend Inc.の日本法人Talend株式会社でプリセールスマネージャーを務める三浦大洋氏は、昨今のデータ活用における領域の広がりについて、次のように話す。

Talend株式会社 プリセールスマネージャー 三浦大洋氏

「たとえば、かつて小売業のデータ活用といえば、POSデータをいかに分析するかがカギでした。でも今はそれだけでなく、顧客属性や気象データ、地理情報、ソーシャルデータなどさまざまなデータを組み合わせて分析する必要が出てきました。また、購買までのマーケティングから購買後のサポートまでを一貫して把握していくためには、データのセキュリティやガバナンスも重要になってきています。さらに、企業買収や統合などでデータの組み合わせは爆発的に増えています。これらすべてに対応していくためには、データ活用を個別のソリューションで対応するのではなく、企業全体をカバーできる統合プラットフォームが欠かせないのです」(三浦氏)

Talendの製品群は、企業のあらゆるデータ活用のニーズに対応する統合プラットフォームだ。もともとオープンソースで開発され、データを収集・加工するETLツールとして高い評価を得ていたが、近年は、企業のデータ活用のニーズに応じて、機能を幅広く拡張している。

例えば、従来のETLツールが担ってきたアプリケーション連携やサービス連携だけでなく、IoTで用いられるセンサーデータのストリーミング処理や、データの正規化などによるデータクリオリティの向上、機械学習の下準備となるデータプレパレーション、基幹システムとのバッチ連携、クラウド統合まで、あらゆる用途に対応できるようになっている。

「ビッグデータやIoTはまず第一歩を踏み出すことがとても大事です。統合プラットフォームで何でもできるといっても何からはじめていいか迷うことは少なくありません。そこで当社ではビッグデータやIoTの分析を簡単に試すことができる環境として『Talend Big Dataサンドボックス』を提供しています」と三浦氏は話す。

Talendで実現する戦略的企業データ活用のイメージ

現実のシナリオサンプルが同梱され、すぐに使える「Talend Big Dataサンドボックス」

Talend Big Dataは統合プラットフォームでありつつも、それぞれの機能を企業の環境に合わせて柔軟に組み合わせて導入していくことができる。ビッグデータやIoTに関しては、先進的なユースケースがいくつも存在し、そのノウハウや技術を集約したのが「Talend Big Dataサンドボックス」(Talend Big Data評価版)だ。

サンドボックスは本来“砂場”という意味だが、Javaなどではほかのシステムに影響を与えることなく試験的な取り組みを実施できる環境を指している。TalendはもともとJavaをベースとしており、Javaのフレームワークとしてビッグデータ分析などで広く使われている分散処理環境の「Apache Hadoop(以下、Hadoop)」や「Apache Spark(以下、Spark)」「MapReduce」などと親和性が高い。

例えば、JavaやSpark、MapReduceのネイティブコードをGUI操作で容易に生成することができ、ネイティブコードは、インメモリで処理するため非常に高速だ。また、デプロイ環境としてHadoopグリッドをそのまま利用できる。通常、Hadoopクラスタの利用ではランタイムなどをインストールする必要があるが、Talendは一切不要で、環境も動的にスケールアップ/ダウンする。

さらに、ストリーミング処理を行う「Sparkストリーミング」や「Spark機械学習ライブラリ」にも標準で対応する。このため、ビッグデータ分析やIoT分析の幅広いユースケースに簡単に対応できるのだ。

では、実際にどんなことができるのか。三浦氏は代表的なユースケースとして、ECサイトの商品レコメンドシステムを挙げる。

レコメンドシステムのポイントは、ECサイト上で展開される顧客の行動をリアルタイムに分析して、その結果をスピーディーにサイトに反映させることだ。そこで、ビッグデータをリアルタイム処理する「Apache Kafka(以下。Kafka)」を使ってストリーミングデータを生成し、機械学習による顧客クラスタリングを行う。その結果をもとに、Sparkストリーミングを使って、リアルタイムに商品レコメンド情報を非構造化データとして生成し、NoSQLデータベースに格納後、動的にHTMLページを生成する。

ユースケース1:ECサイトの商品レコメンドシステム

また、IoTのユースケースもある。ここでは、スポーツスタジアムでプレイヤーの動きをセンサーによってリアルタイムに取得し、可視化することを行っている。さきほどのケースと同じように、Kafkaを使ってセンサーから取得されるIoTデータ(JSON)をキャプチャし、Sparkストリーミングでプレイヤーの移動距離とスピードを瞬時に計算する。そして、その動きをWebベースのダッシュボードにリアルタイムに表示していく。

ユースケース2:IOTセンサー情報を可視化

Talend Big Dataサンドボックスは、こうしたユースケースシナリオを5つと、実際に動作するTalendジョブサンプルが同梱されたVMwareまたはVirtualBoxで動作するDocker環境だ。Hadoopディストリビューションとして「Cloudera」「Hortonworks」「MapR」のいずれかが選択でき、Spark、Kafka、Map Reduce、NoSQLを使った現実のシナリオサンプルを試すことができるようになっている。

「ビッグデータやIoTのテスト環境をすべて自前で構築していこうとすると、なかなか大変なものです。ただ、Talend Big Dataサンドボックスを利用すると、すでに実績のある事例やユースケースで使われている実際のテクノロジーとサンプルを使って、実プロジェクトでの取り組みを効率的に始めることができるのです」(三浦氏)

データ活用の取り組みを全社的なデータ活用基盤にまで育てていく

これまで説明してきたように、Talendは統合プラットフォームであるため、企業が抱えているさまざまなニーズに対応することもできる。

「Talend Big Dataサンドボックスを試してから、それをほかの取り組みに応用していくことが可能です。例えば、旧システムから新システムへのデータマイグレーション、データウェアハウスとしての利用、データ加工やクレンジングといったデータコンソリデーション、複数システム間でのデータ連携などです」(三浦氏)

あらゆるデータ統合ニーズに対応

「Talendが提供しているのは、現状を改善し、あるべき姿を目指すための道筋を示すソフトウェアです。収益向上やコスト削減、生産性向上、ガバナンス向上など、企業の目標はそれぞれですが、テクノロジーを活用することで、取り組みのハードルは小さくしていくことができます」(三浦氏)

少子高齢化や働き方改革などの取り組みが進む中、データ活用は新しいビジネスの種となるだけでなく、業務効率化や人材獲得の武器にもなってきた。その意味では、HadoopやSpark、Kafkaなどに代表されるビッグデータ・IoT関連のテクノロジーは、企業のあり方を変えていく入口のようなものでもある。

三浦氏は「エンジニアとシステムが一緒に成長し続ける環境が大事です。Talend Big Dataサンドボックス環境を使って、まず取り組みをスタートさせ、そのうえで人とシステムが一緒に成長できる環境を作り上げていってほしいと思います」と話す。

Talend Big Dataサンドボックスは下記URLからダウンロードして試すことができる。ぜひ試してみてほしい。

Talend Big Dataサンドボックス

5つのユースケースシナリオと実際に動作するTalendジョブサンプルを同梱。無料で30日間使用可能。

・Docker環境で、Hadoopディストロごとに直に試せる
・ビッグデータエキスパートによるステップ・バイ・ステップのガイド付き
・Spark,Kafka,Map Reduce,NoSQLを使用した現実に即したシナリオサンプル付き

無償試用版はこちら
https://jp.talend.com/products/big-data?utm_medium=syndication&utm_source=paid&utm_content=JPMyNavi2017Q4&utm_campaign=productdownload
(「無償試用版をダウンロード」というボタンをクリックすると、登録フォームのページが開きます)

[PR]提供:Talend