富士通は7月22日、顔などの情報が写っていない映像からでも人の歩き方(歩容)をもとに人物を高精度に照合できる歩容照合技術を開発したことを発表した。

同技術は、人の関節点の座標から姿勢を推定する汎用深層学習モデルと、汎用的に照合可能な空間への変換により人物を照合しやすくする同社の独自技術を組み合わせることで、カメラ映像における人の映り込む位置の違いなどにより照合精度が低下してしまう課題を解決し、顔などの情報を必要とせずに高精度に人物を照合可能とするもの。

同社事業所で約1,700人を対象に撮影したカメラ映像から作成した大規模データセットを、学習済みの汎用深層学習モデルを用いて照合した結果、これまでの技術では50%未満の精度だったものが、本技術では約90%の高い精度で人物を照合することができるようになったという。

同技術は、事前に取得した人物映像から得られる歩容情報の登録時と、新たに用意した人物映像を入力する照合時の2段階で構成されるという。

登録時には、人の複雑な行動を認識する同社のAI技術「行動分析技術 Actlyzer」の姿勢推定技術を用いて、人の関節点の移動における時系列情報を抽出し、得られた関節点の時系列情報をサイズや位置によらず汎用的に照合可能な空間に投影して関節点情報を変換。そして、変換された時系列の関節点情報から、カメラ映像内の人物特有の歩容の情報である歩容特徴量を抽出し、歩容特徴量データベースに登録するという。

照合時には、新たに入力された人物映像に対して、登録時と同様に、汎用的に照合可能な空間に投影して変換された関節点情報から歩容特徴量を抽出し、あらかじめ登録した人物映像の歩容特徴量と、新たに入力された人物映像の歩容特徴量との類似度を比較することで、人物を照合するという。

  • 開発した技術による人物照合イメージ

同社は今後、迷子や高齢者の捜索の際に、過去にスマートフォンなどで撮影した対象者の歩容が分かる映像をもとに、公共機関などさまざまな場所に設置されたカメラ映像から歩容の類似度が高い人物をAIが高精度に特定するなど、従来は人手で行っていた映像の解析作業を大幅に効率化するために様々な場面での実証に取り組み、2023年度の実用化を目指す。