富士通研究所(以下、富士通研)は、ソーシャルメディアなどの増え続けるビッグデータをタイムリーに活用可能とする高速処理技術を開発したと発表した。
近年、サーバの高性能化が進んでいるが、大量のデータをリアルタイムに分析するのは困難であり、システム全体での性能向上が課題となっていた。また、これらのビッグデータは、ただ蓄積するだけではなく、データに対して様々な分析を行い、価値ある情報をいかにすばやく引き出すかが重要となっている。
今回、富士通研はサーバ上で動作するデータ分析ソフトウェアとデータの格納処理を行うデータ管理ソフトウェアを密接に連携し、データ分析側からの処理要求頻度に応じて一度に処理するデータ量を変化させることでシステム全体の性能を5倍以上向上させた。これにより、アクセスが急増した場合でも、すばやい分析を実行することが可能となる。
開発した技術は、データの読み出し時、データ管理側は、データ分析側から指定されたデータだけでなく、ディスクの物理レイアウト上の近くにある他のデータもまとめて読み出し、データ分析側は、このデータの中から必要なものを選んで使用する。
また、データの書き込み時、データ分析側は不要になった複数のデータを指定してデータ管理側へ渡し、データ管理側は受けとったデータのまとまりを、ディスクの物理レイアウト上できる限り近くに配置する。ディスクへの読み書きのまとまりを大きくすることで、ディスクへのアクセス回数を減らし、システム全体のスループット性能を向上させた。
さらに、データ分析側で可能な限りまとめて処理するために、必要なデータよりも多めに読み出してから、利用側で選別して処理する機能も開発した。このとき適切なまとめ読みの大きさは状況によって変化するため、外から届くデータ量や分析の進み方を把握して、まとめて読み書きするサイズを決め、適切な性能が出るように自動で調整する。
同技術により、従来に比べて5倍以上のスループット向上を実現。これにより、数分から数十分前の出来事を分析結果に反映し、価値ある情報を即座に提供(例えば電車の中の多数のユーザーに対して、位置情報に基づいた旬の情報や話題のレストラン情報などを配信)するなど、多くのユーザーが適切なサービスを利用することが可能になる。
富士通研では、今後様々な分析アプリケーションへの適用および実証実験を進め、2014年度の実用化を目指す。