最近、頻繁に耳にする「ビッグデータ」。皆さんはその具体像をどれだけイメージできるだろうか。
これまで登場してきた数々のITキーワードと同様、非常に抽象的な言葉である。どのようなデータが含まれ、どのようなかたちでビジネスに影響を与えるのかは不明瞭で、宣伝文句として使用しているベンダーですら、言葉のイメージに関して企業ごとに大きな隔たりがあるようだ。
そんな中、ビッグデータという概念に対して正面から向き合っている企業がIBMである。ハードウェアからソフトウェア、SIまで幅広い商品/サービス群を活用した総合的なソリューション提供している同社では、ビッグデータを明確に定義し、その活用方法や対応技術を詳しく説明している。
そこで、本稿では、日本IBM ソフトウェア事業 理事 インフォメーション・マネジメント事業部 事業部長の塚本眞一氏の話を基に、同社が描く"ビッグデータの世界"を簡単にご紹介しよう。
ビッグデータの特徴を示す「3V」
「IBMでは、ビッグデータの特性を『3V』というキーワードを使って説明しています」――塚本氏は、ビッグデータの説明をこのように切り出した。
3Vとは、「Variety(種類)」、「Volume(容量)」、「Velocity(頻度)」の頭文字をとったキーワード。ビッグデータへ対処するためには、それぞれの3V特性を理解し今後に備える必要がある。
Variety――データ多様性
日本IBM ソフトウェア事業 理事 インフォメーション・マネジメント事業部 事業部長の塚本眞一氏 |
3Vのうち、Varietyについては、データの種類。従来より企業内外で処理されている構造化データのみならず、テキスト、音声、画像などの非構造化データが処理対象となる事を表す。
現在企業で情報分析に活用されているデータのほとんどは、業務システムのデータベースに格納されたものがベースだろう。しかし、ビジネスの現場やユーザーの環境を見回すと、PC/サーバ内にさまざまなドキュメントが格納されているうえ、SNSにはスマートフォンの普及に伴い以前とは比べ物にならない量のデータ投稿されている。さらに、昨今では多様なセンサーが活用され、そのデータが随時送られる状況にあるほか、カメラやマイクを使って記録した音声/動画ファイルも多数存在する。
こうしたデータに関しては、「これまでは対応技術が十分でなかったことから、人手で収集/解析するか、あるいは分析対象から外すという方法をとらざるを得なかった」(塚本氏)。しかし、今後はこれらを自動で収集、分析することで、さらに広い視座が得られるようになるという。
Volume――データ容量
2つ目のVolumeに関しては、言葉のとおり、データの増加を意味する。上で挙げた新たな種類のデータには、データ自体の増加に加え、動画のようにサイズの大きいものや、センサー/SNSのように発生頻度の高いものがあり、必然的にデータ容量は膨大になる。
そのサイズとしては「ゼタ・バイト規模のデータを想定している」(塚本氏)と言い、これまでとは桁違いのデータを扱うインフラが必要になるようだ。
Velocity――データ処理頻度
そして最後のVelocityに関しては、前述の多様で膨大なデータを高頻度で高速に処理することを指す。収集データが増え、以前よりも精度の高い分析ができたとしても、それがタイムリーに提供されなければ意味がない。
塚本氏は「多様で大量のデータをリアルタイムに分析することで、以前は不可能だった洞察が得られるようになる」と述べ、リアルタイムという要素が加わることではじめてビッグデータが有用なものになることを強調した。
ビッグデータ、想定活用例はさまざま
では、こうした特性を持つビッグデータの活用例としてはどのようなものが想定されるのか。
塚本氏は、「業種業態によって本当にさまざまなので一概には言えない」としながらも、例として、クレジットカードや医療分野、社会インフラ、保険業界などを挙げた。
クレジットカードの解析システムとしては、「前回利用地域から数千kmも離れた国で数時間以内に再度利用されたデータを不正とみなす」など、場所と時間に基づく不正利用検知が有名だが、今後は「過去の大量データを詳細に分析することで、個々のユーザーを特定することなく、消費行動パターンや不正利用パターンなどを認識するなど、利用場所や時間以外の情報も考慮した検知が可能」(塚本氏)という。また、現在のように購入後に解析して割り出すのではなく、店舗やオンラインショッピングでの決済のタイミングで抑止することも可能になるようだ。
また、医療分野に関しては、医療機器のセンサーで収集した情報を基に、過去の臨床データと照らし合わせながら、異常を即座に検知するといった利用法が挙げられる。特に、新生児特定集中治療室(NICU : Neonatal Intensive Care Unit)においては、「ビッグデータという言葉が生まれる以前から似たような導入実績が多数ある」(塚本氏)という。
社会インフラの分野では、各地域に張り巡らせたセンサーにより、異常を瞬時に察知し、停電や交通渋滞などを回避する仕組みを作ることが可能だ。特に電力に関しては、将来の普及が見込まれるスマートメーターを活用すれば、近未来の需要を高い精度で把握することも不可能ではない。そうなれば、より効率的な電力供給が可能になる。
そして保険業界では、ハリケーンなどが発生した際にその進路を予測したうえで、被害想定地域にどれだけの契約者がおり、合計保補償額がおよそいくらになるかを見積もるシステムがすでに存在するという。「資金の調達を進めるうえで不可欠なシステムとして稼働している」(塚本氏)ようだ。
ビッグデータ時代の技術解説はセミナーで!
以上、非常に簡単で言葉足らずの部分もあったかもしれないが、塚本氏の話を基にビッグデータについて紹介した。
おそらく、続いての皆さんの疑問は、どのような技術を使えば上記のプラットフォームが構築できるのかという点だろう。システム構築や運用の経験がある方ならば、こうしたプラットフォームの構築が容易でないことは想像に難くないと思うが、IBMでは上記の3V特性を考慮した最新技術を用意している。
6月19日(火)に開催される『ビッグデータ分析プラットフォーム・セミナー』では、そのコンセプトや技術の仕組みが解説される。また、ここでは紹介しきれなかった3V特性の詳細やその他の活用分野なども、塚本氏自身の口から紹介される予定だ。
対応技術が明確になればイメージがクリアになり、応用範囲も見えてくる。システムの構築/運用に携わる方々には、ぜひとも足を運んでいただきたい。