科学情報システムズ(SIS)は、長年にわたって大手製造業やサービス業、キャリアといった企業からシステム開発を受託してきたノウハウ・技術を基に、2013年秋から「ビッグデータ分析ソリューション」を提供している。リアルタイム処理と分析・シミュレーションを組み合わせた本システムの中で、大量のデータを格納するストレージとしてCloudianが採用された。
ビッグデータ分析の結果をリアルタイム処理で反映
──科学情報システムズの「ビッグデータ分析ソリューション」は、どのようなシステムですか
筒川氏 当社は長年、大手製造業やサービス業、メディア、キャリアなどを対象に、受託開発とシステムインテグレーションを提供してきました。そうした事業で積み重ねてきた実績と経験、ノウハウを基に、システム開発とサービスを融合した総合ソリューションを提供しようという取り組みを行っています。
ソリューションの例としては、ネットワーク高度化基盤ソリューションやAndroid向けファームウェア配信ソリューション、位置情報サービス構築基盤などがあげられます。
そのような取り組みの中で、当社も昨今話題になっているビッグデータに注目していました。さまざまな機器に取り付けられたセンサーから集められる大量のデータを、どのように蓄積し、どのように活用するかという解決策の1つとして、今回のビッグデータ分析ソリューションを開発しました。
武田氏 このシステムは、さまざまなセンサーから集められたデータが流れるイベントストリームを監視して、リアルタイムに処理・分析する「イベント処理基盤」、それらの大量のデータを蓄積する「大容量データストア」、蓄積されたビッグデータを分析する「大規模データ分析基盤」という3つの基盤から成り立っています。
リアルタイム処理においては、イベントデータをインメモリで処理することにより、高速な監視と判断を実現しています。
これらの個別の機能は以前からある仕組みですが、最大のポイントは、リアルタイム処理を担うイベント処理基盤へ、大規模データの分析結果を反映できるところにあります。これにより、リアルタイム処理の精度を向上させていくことが可能です。こうしたビッグデータを“回す”仕掛けが、今後も重要になると考えています。
ビッグデータ分析のデータストアにはオブジェクトストレージが最適
──なぜデータストアにCloudianを採用したのでしょうか
筒川氏 当社はオープンソース・ソフトウェアを用いた開発を得意としており、大規模データを蓄積する基盤としてKVS(Key-Value Store)の代表格である「Cassandra」を使用することを検討しておりましたが、ビッグデータの蓄積にはあまり適しませんでした。そうした悩みを抱えていたとき、Cloudianに出会ったのです。
本橋氏 CassandraのNoSQL DBは、小さな大量のデータを扱うのは得意ですが、大きなデータを扱うのが苦手なのです。Cloudianの独自機能である「HyperStore」は、オブジェクトサイズによって格納先を変えることができ、ハードディスクの使用効率を向上させ、読み書きの性能も高めることができます。
筒川氏 初めは自社開発という考えもありましたが、CloudianであればCassandraの不得意な部分をすべてフォローできるため、活用しない手はないという結論にいたりました。その後、さまざまなディスカッションを経て、パートナーとして協力関係を築いたというわけです。
武田氏 従来のシステムは、RDB等への格納を想定して、設計された枠を用意してデータを蓄積していくという仕組みが主流でした。したがって、蓄積するデータも、きっちり設計されたものでなければなりませんでした。
しかし昨今では、各種の機器やデバイスが高度に進化し、さまざまなデータを出力できるようになりました。例えば、工場や建築物の監視業務と言えば、さまざまなセンサーデータや画像データが考えられます。データの種類や量も、従来とは比べ物になりません。
このような大量の非構造化データを蓄積するには、Cloudianに代表されるオブジェクトストレージが最適なのです。
本橋氏 ITシステムのログなどは、そもそもデータが小さいと思いますが?
武田氏 サーバなどのログはそのまま保存しておくのが一般的です。しかし、オブジェクトストレージであるCloudianであれば、ログをオブジェクトとしてそのまま格納しておけますし、さらに属性を付与することで管理性も向上します。
──Cloudianの特長の1つとして、Amazon S3準拠のインターフェースがあげられますが
武田氏 このビッグデータ分析ソリューションは、データストアとの入出力にさまざまなインターフェースを扱えるようになっています。標準的な通信プロトコルであれば、ニーズに合わせて柔軟に対応することができます。もちろん、この“クラウド時代”に適合するようAmazon S3にも対応させているため、問題なくCloudianと接続することができました。
本橋氏 Hadoopの分散ファイルシステム(HDFS)を使わなかったのはなぜですか?
武田氏 HDFSは、Hadoopの分散処理から使用することを想定したファイルシステムです。しかし、せっかく蓄積するビッグデータですから、将来的なことを考慮すると、ほかのシステムでも使えるようにするべきだと考え、よりオープンなインターフェースで接続できるCloudianが適していると判断しました。
ユーザーの視点でも、データがどのように格納されているかというのは意識したくないものです。仕掛けが汎用的でないと、そうしたシステムは構築できないのです。当社としても、できるだけオープンな技術を使用して、顧客のニーズを満たす柔軟なソリューションを提供していきたいと考えています。
拡張性の高いCloudianなら長期間のデータ蓄積も任せられる
──このソリューションを必要とするユーザーはどのような業種が当てはまりますか?
筒川氏 社会インフラを支える業種や通信事業者のユーザーニーズを解決するものと捉えています。例えば、橋やビルなどの建築物に設置されたセンサーで検知したイベントを基に、リアルタイムに障害を予測したり、分析結果から防災計画を立てたりといったケースが考えられます。
武田氏 従来は、専用の機器を使用して閉じた世界でデータを集めるしかなく、リアルタイムに処理する環境が整っていませんでした。最近では、ITシステムと連携できる安価で小型なセンサーが登場し、さまざまなところに設置できるようになりました。しかし、そうして得られたリアルなデータと学術的な理論との比較から、どのような価値を見出していくかについては、まだまだ発展途上の段階と考えています。
また、ビッグデータを持っていても活用できることに気づいていない、あるいは技術的にデータを取得できなかったというケースも多数あります。そうしたユーザーの事業に貢献するツール・基盤として、当社のビッグデータ分析ソリューションを使っていただきたいと考えています。
本橋氏 そうしたデータは、将来的には溜まっていく一方です。
武田氏 理論的な予測の裏付けを取るには、長期間にわたって膨大なデータを蓄積し、分析結果と照らし合わせる必要があります。逆に、そのためのデータを取得できるようになったことも事実です。
筒川氏 そうしたデータを蓄積する手段としてCloudianは最適です。なぜなら、目的に合わせて小さく始めて、データの拡大に合わせてサーバを追加するだけで拡張していくことができるからです。
Cloudianのメリットは、データストアの部分をすべて任せることができるところにもあります。当社は蓄積されたデータを分析する基盤開発に、ユーザーは分析されたデータの活用に注力することができるためです。
本橋氏 昔から、天気と季節商品の売上など、相関分析の手法はよく活用されていました。ビッグデータどうしを比較分析するというニーズも高いでしょうね。
武田氏 今やデータが増えすぎて、「ちょっと見てみよう」と思ってもハードルが高くて理解できなくなっているのが現状です。システム側から、あるデータとあるデータに関係があるのではないかというように提案できる仕組みを、開発・提供したいと考えています。