一般的なデータ統合ツールと違い、コード生成モデルを採用したTalend製品は、データの変化を感知したり、連携・統合した後のデータを別のシステムのアクションのトリガーにしたりすることができるのも特長だ。
さらに、最新バージョンの「Talend 5.4」は、MapReduce 2.0とも呼ばれている汎用的な「YARN」プラットフォームにいち早く対応。Hadoop分散環境において幅広いデータ処理プログラムを飛躍的なスピードで実行し、ビジネスにイノベーションを起こす。
真の「データ指向」でビッグデータ統合を支援
Talend株式会社 マーケティングディレクター 寺澤慎祐氏 |
多種多様なデータを統合し、データをビジネスの価値に変えていくことがTalend製品の特長だ。これによりデータドリブン経営を実現することができる。
だが、ここで一つの疑問が湧いてくる。世にあるETL/EAI/ESBなどのデータ統合ツールとTalendツールは、根本的に何が違うというのだろうか。Talend日本法人でマーケティングディレクターを務める寺澤慎祐氏は、このように語る。
「従来のデータ統合ツールは、データを集めてきて統合し、他システムや人間に渡すまでの“静的”な役割を担うものでした。
システムを連携する一つの重要な手段としてデータを取り扱い、連携後はBIツールや他システムにデータを渡すというものです。
これに対してTalend製品は、データを起点としたビジネスプロセスの革新をすることができるのです。
Talend製品は、シンプルなGUIツールで『JARファイル』と呼ばれるプログラムを作り出す『コード生成モデル』を採用している点が大きく違っています。
すなわち、データやシステムを統合できますだけではなく、また人間の判断を介したアクションではなく、業務ノウハウや業務プロセス、インサイトをプログラミングすることで、単にデータを統合するだけでなく、業務プロセスそのものをオートメーション化することができます」
例えば、POSから上がってくる個々の商品の販売情報と、在庫情報と照らし合わせ、残り数量が一定のしきい値を下回った場合、調達システムや配送システムに対して直接トリガーをかけることがあるがバッチ処理であることも多くタイムリーではない。
従来、こうしたリアルタイムのイベント処理を実現するためには、「CEP(Complex Event Processing:複合イベント処理)」と呼ばれる自動判定システムを構築しなければならなかった。「どんなデータを、どのように組み合わせ、どう判断させるのか」という分析・活用シナリオは外部システムに大きく依存するため、ブラックボックスになりがちで、新しいデータソースを組み込む拡張の際にも複雑なプログラムの改修が必要となる。
「Talendツールであれば、実行したいイベント処理の定義や手続きを簡単に登録したり、変更したりすることができます。しかも、生成されたソースコードはGUI上でグラフィカルに“見える化”されるため、開発者だけでなく業務部門のユーザーともシナリオを共有できます。決してブラックボックスにはなりません」(寺澤氏)
データからどんなビジネス価値を生み出すのかを、システムではなくデータそのものから発想していく――。そんな「データ指向」によるビッグデータ統合をTalendツールは支援するのである。
“業界初で業界唯一” YARN上でJARファイルを動作
2014年1月にリリースされた最新バージョン「Talend 5.4」により、ビッグデータ統合の機能はさらに大きく進化した。
最大の強化ポイントは、分散処理プラットフォーム「Hadoop」の取り扱いを容易にしたことにある。ソーシャルメディアから集めたコメントを分析するテキストマイニングなどで関心が高まっているHadoopだが、技術的なハードルが高く、十分に使いこなせるスキルを持ったエンジニアはまだまだ不足しているのが実情だ。
「我々は業界唯一の取り組みとして、Talend製品とHadoop、さらにはNo SQLデータベースやさまざまな分散処理技術との間を容易に連携できるAPIの提供を開始しました。これにより開発者は、Talend Open Studioの一元的なインターフェースから複数のビッグデータ処理プラットフォームにアクセスすることが可能となりました」(寺澤氏)
さらに注目すべきが、業界に先駆けた「YARN(Yet Another Resource Negotiator)」のサポートである。YARNとは、Hadoopを構成しているプログラミングモデル「MapReduce」と分散ファイルシステム「HDFS」の間に入る汎用的なフレームワークだ。
Talend 5.4は、YARN上でもネイティブに動作するJAR形式の実行ファイルを生成できる。これにより、データ統合エンジンやデータクレンジングをはじめ、オリジナルのMapReduceに準拠していないモデルも対象とした、幅広いアプリケーションをHadoop上で実行することが可能となった。しかも、従来のMapReduce 1.0がサポートする分散サーバのノード数が4,000程度だったのに対し、YARNは10,000程度までサポートする。
「これまでとはまったくタイプの違うプログラムやアーキテクチャでも、Hadoopのパワーを存分に引き出し、圧倒的な処理性能を得られます」と寺澤氏は強調する。
データ処理の飛躍的なスピードアップがビジネスイノベーションへ
データ処理が飛躍的に速くなることで、ビジネスにはかつてないイノベーションが起こる。
例えば流通業では、POSシステムに集まる販売情報ならびにそれに連動する調達システム、最近では明日の気象情報なども駆使して販売量を予測し、明日の商品の仕入れ量や配送時間を確定するといった意思決定を行っている。しかし、このバッチ処理はあまりにもデータ件数が多すぎて、しばしばタイムラグが発生してしまう。
「Talend 5.4を使えば、ほぼリアルタイムにデータを集め、瞬時にデータを処理して、調達システムや配送システムに起動をかけることができます」(寺澤氏)
製造業では、その日の温度や湿度により、工場の生産ラインや製造機器単位で欠品率が左右されてしまう場合がある。これを避けるため、温度/湿度データをもとに自動制御を行っているのだが、システムの導入にもメンテナンスにも多大なコストを費やしている。
「Talend 5.4を使えば、自動制御を行うまでもなく、温度/湿度データから想定される欠品率に基づき、必要部材の数量を瞬時に計算して調達量を変更できます」(寺澤氏)
また、公共においては、橋梁や高速道路などのいたる箇所に取り付けられた歪み計などの無線センサーからマシンデータを収集し、危険個所の判断や補修を行っている。しかし、処理能力の問題から収集・処理できるのは差分データまでで、精度を高めたくても限界があった。
「Talend 5.4を使えば、差分データではなく生データをリアルタイムに収集し、通常データのトレンドと異常データの差異を瞬時に判断し、より精度の高い障害の予兆検知を行うことができます」(寺澤氏)
もちろん、これらはTalend 5.4によって可能性が広がる応用ケースのほんの一例だ。さまざまな業界業種で、今まで以上にデータを深く、広範囲に活用し、多くの価値を引き出すことができる。ビッグデータ統合はもはや目指すべき理想ではなく、データドリブン経営を推進するための“現実解”となっているのだ。