日本IBMは8月7日、6月末に市場に投入されたInfoSphere BigInsights V3.0の、Hadoop関連機能を説明した。

日本IBM ソフトウェア事業 インフォメーション・マネジメント事業部 一志達也氏

日本IBM ソフトウェア事業 インフォメーション・マネジメント事業部の一志達也氏は、「Hadoopに対しては多くのベンダーはサポートやトレーニングを提供しており、Hadoop独自のファイルシステムであるHDFSが使いにくいため、独自のファイルシステムに置き換えているベンダーもあります。IBMも基本的には同じで、サポートやトレーニングのほか、GPFS-FPOという独自のファイルシステムを提供しています。ただ、Hadoopに対しては、これだけでは足りないものがあります。それは、データを分析したいったニーズを考えたときの機能です」と、IBM HadoopとApache Hadoopの違いを語った。

同氏によれば、現在のHadoopには課題が2つあるという。1つはMapreduceエンジンが遅い点、もう1つがSQL機能がない点だという。

Mapreduceエンジン対してIBMは、C言語で書かれ、無駄を省いてチューニングした独自のAdaptive Mapreduceエンジンを搭載しており、SQLに関しては、DB2互換インタフェースのBIG SQLを搭載している。

また、BIツール/streams/ELTツールが付属している点もApache Hadoopとの違いだという。

InfoSphere BigInsightsのHadoop機能とApache Hadoopの違い

そして一志氏は、InfoSphere BigInsights V3.0のもっとも大きな新機能であるBIG SQL 3.0を説明。

同氏はBIG SQLを搭載した背景を、「Apatch HadoopはJavaを利用することになりますが、MapreduceのJava APIはプログラミング経験が必要で、それを学ぶことは簡単ではありません。Hadoopにおいて、SQLが走るデータウェアハウスを作りたいという大きなニーズがあります」と説明した。

BIG SQL 3.0では、ANSIのSQL 2011に準拠しているほか、クエリの書き換えや最適化により、精度の向上や高速化が図られているという。

BIG SQLのアーキテクチャ

BIG SQL 3.0の高速性の秘密

また、JDBC/ODBCドライバはDB2と同一のものが利用できるほか、Python、Ruby、Perlなどの多くの言語も利用できる。

さらに、既存のDB2のデータとHadoopのデータを組み合わせて利用するフェデレーション機能も利用可能だという。

一志氏は、「これまでのDB2の機能に加え、Hadoopを付加機能として提供できる点がIBMの最大の強みです」と語った。

フェデレーション機能

なお、IBMではYARNやSparkを今後InfoSphere BigInsights取り入れ、サポートしていく予定だという。