NTTデータとDataRobot、Clouderaの3社は4月19日、エンタープライズ向け機械学習自動化プラットフォーム「DataRobot」のHadoop対応版を提供開始した。
今回、DataRobotの販売代理店パートナーであるNTTデータにより、Clouderaプラットフォーム上でのHadoop対応版のDataRobotの動作検証し、提供できる体制を整備した。
導入メリットとして「外部データ/新規データを活用した新テーマ検討」「大量データでの試行錯誤の効率化」「個別データ予測で細やかな判断が可能」の3点を挙げている。
外部データ/新規データを活用した新テーマ検討に関しては、Hadoop基盤上に新たに蓄積した外部データや新規データを活用するためには、データから個別のDataMartを構築し分析を行う必要があったが、直接Hadoop基盤から分析データを取り込んだ上で利用を可能としている。
そのため、従来の抽出や集計、ダウンサイジングなどのDataMart構築にかかる処理を簡素化し、これまで使えていなかったデータを活用し、新規ビジネスの創出、既存業務の改善に向けた新テーマの検討を加速させるという。
大量データでの試行錯誤の効率化については、従来は予測モデルの精度を上げるためには新しいデータを入れて試行錯誤したり、学習データ量を増やしたりといった対応の必要があり、機械学習アルゴリズムは単一マシンでの動作を前提としていたものが多く、単一マシンの処理能力が制約となっていたため、現実的なデータ量に落として予測モデルを作成していた。
分散型アルゴリズム(Spark MLlib、H2Oなど)はHadoopの規模が大きくなるにつれて、分散処理により短時間で予測モデル作成を行うため、大量データに対しても現実的な時間で予測モデル作成が可能になるため、精度の良い予測モデルを作成するための試行錯誤が効率的にできるようになるという。
個別データ予測で細やかな判断が可能な点に関しては、大量のデータに対して予測を実施したい場合でも分散型バッチ予測の機能「Hadoop Scoring」により、Hadoop基盤上の分散処理の仕組みを有効活用して従来のDataRobotの予測エンジンよりも高い処理能力で大量の予測を行う。
これにより、個々のデータ特性に合わせて予測を行い、細やかな判断を可能とし、例えばマーケティングにおいて何万件もある顧客に対して購買予測を実施することで、個別の傾向に合わせたアクションを可能としている。
各社の役割としてNTTデータはHadoop対応版のDataRobotに関するインテグレーションサービスの提供、DataRobotはDataRobotのHadoop対応版の提供、Clouderaは機械学習と分析のためのデータプラットフォーム「Cloudera Enterprise」、ならびにプロフェッショナルサービスを提供する。