東芝は5月25日、ビッグデータや大規模なメディアデータを高速照合するデータ処理技術を開発したと発表した。

同技術は、人物の顔や売り上げデータなどを高次元ベクトルで表現し、あらかじめ類似のベクトル群を索引化しておくことで高速照合を可能にするもの。

具体的には、ベクトル間の距離をなるべく維持したまま圧縮する「ベクトル符号技術」、ベクトル間の距離を計算せずに距離が比較的近いベクトル群を事前に索引化する「ベクトル索引技術」、粗い検索と細かい検索を段階的に組み合わせる「パイプライン検索技術」の3つの技術を連携させて高性能化・高速化を実現している。

東芝が開発したビッグデータや大規模なメディアデータを高速照合するデータ処理技術の構成

「ベクトル索引技術」は、問い合わせデータのベクトルに対し、一つずつベクトルを照合するのではなく、索引化された類似のベクトル群から照合させることで高速処理を実現している。

同社ではパターンマイニング(類似パターンの検索)、メディア認識の強化、ビッグデータ分析の3つの分野を中心に、同技術のソリューション・サービスへの適用を展開していくという。

例えば、広範囲に設置された監視カメラの映像から特定の人物を瞬時に見つけ出したり、空港などの水際監視では、国際手配者の顔写真リストを高速で照合させたりすることが可能だという。

高次元ベクトル高速照合技術の将来的な活用イメージ。左から、パターンマイニング(類似パターン検索)、大量の映像データから人物などを照合(映像データベース構築と検索など)

1000万件の人物の顔画像データから特定の人物を抽出する実験では、従来の技術と比べ、約50倍の8.31ミリ秒(1ミリ秒=1/1000秒)で処理を完了したという。

同社は、同技術と同社のビッグデータ向けスケールアウト型データベース「GridDB」を組み合わせ、ビッグデータや大規模メディアデータの高速処理を実現する世界初の高次元ベクトル照合に対応したデータベースを2016年度中に製品化する予定。