富士通、人の急な方向転換や加減速にも対応可能な新トラッキング技術を開発

富士通は1月5日、歩行者の急な加速や減速などに対応可能な、歩行速度にかかわらず多くの人の移動を高精度にトラッキングする技術を開発したことを報告した。今回、開発チームに新技術の概要と将来の展望を取材した。

取材時の様子

富士通の開発チームは今回の技術について、「実用化の検討はこれから」としながらも、ショッピングモールなどの商業施設における顧客の動線解析や見守り、スポーツにおける運動分析、工場での作業行動認識など、同社の行動認識AI（Artificial Intelligence：人工知能）ソリューションや画像処理AIソリューションへの適用を検討する予定としている。

富士通が開発した技術の適用例、商業施設やスポーツなどに応用できるようだ

富士通はAI技術を用いた「行動分析技術 Actlyzer（アクトライザー）」をはじめ、幅広い行動解析ソリューションを展開しており、これまでにイベント会場や公共施設、小売店舗などへの実装が進んでいるという。一方で、これらのソリューションの導入が進むにつれて、商業施設における顧客の動線解析やスポーツの運動分析など、高速かつ不規則な人の行動もトラッキング可能な仕組みに対する需要が高まっていたようだ。

従来のトラッキング技術で用いられるアルゴリズムは、動画中の時間ごとにフレームにおいて人を捉え、対象領域の重なり具合を示す指標（IoU：Intersection over Union）に基づいて同一人物を判別する仕組みだ。IoUは、ある特定のフレームと次のフレームで人を検出した全範囲のうち、重なっている範囲の割合を計測する。

従来のトラッキングのアルゴリズム

このアルゴリズムでは、人が高速に移動する場合や交差する場合、もしくは不規則な動きをする場合に、その重なり具合によっては同一人物としての対応付けが困難になる場合があり、課題とされていた。等速かつ直線的な人の動きであれば従来技術で十分に対応可能なのだが、スポーツや商業施設における人の行動は不規則で予測が難しいため、新技術の開発が待たれていたという。

また、顔や服装などの外見を特徴量として抽出する手法は、個人の特定にもつながり得る上に計算リソースも膨大となるため、今回富士通は外見を特徴量として用いないアルゴリズムの開発を試みたそうだ。

従来のトラッキング技術の課題

今回開発した技術は大きく2つ。1つ目は、人を捉える対象領域を拡大して重なり合う領域を作り出すことで、同一人物の対応付けが成功する可能性を向上させる、BIoU（Buffer Intersection over Union）値を用いる方式だ。対象が素早く動く場合には人を捉えた領域が重ならず、同一人物であると対応付けられないという課題を解決した。

人を検出する領域を拡大する手法

2つ目の開発技術は、誤った対応付けをしやすい急な方向転換や急な加減速時の動きの特徴に着目した、2段階での対応付け方式だ。従来の1段階での対応付けにBIoUを適用する場合、「急な方向転換をする人」と「高速に移動する人」が混じった状態では、誤った対応付けが生じる可能性がある。

これに対して、1段階目は人を捉える対象領域を拡大せずに従来と同様にIoU値を計算して、2段階目では1段階目で対応付けができなかった人のみ対象領域を拡大してBIoU値を計算する。「急な方向転換をする人」は慣性のために必ず直前に減速する性質に着目して発案したアルゴリズムだ。こうすることで、「急な方向転換をする人」と「高速に移動する人」をそれぞれ分けて検出できるようになった。

2段階で同一人物を対応付ける手法

富士通によると、同社が実施した検証の結果、トラッキングの分野で一般的に用いられている従来技術と比較したところ、開発技術は公開データセットであるDanceTrackデータセットにおいて、トラッキング精度を評価するHOTA（Higher Order Tracking Accuracy）を17%向上できると示されたとのこと。

なお、同技術は外見などの画像特徴量に依存しないため、プライバシーにも配慮しつつ、少ない計算リソースで利用可能な特徴も持つという。

今回プロジェクトマネージャーを務めた姜山（Jiang Shan）氏は「ショッピングモールのように人が自由に動く場合でも、個別にチューニングするのではなく一括して解決できるアルゴリズムを目指した。また、現時点では実用化のめどが立っているわけではないものの、少ない計算リソースでのトラッキングやプライバシーの保護など、ビジネス利用を見据えた仕組みを開発できたのが今回の良かった点」と説明。

富士通研究本部 Gプロジェクトプロジェクトマネージャー姜山氏

主任研究員の小田嶋成幸氏は「予測しづらい不規則な動きでもトラッキングできるよう工夫するのが困難だった。工場を撮影した動画のように画面内にいる全員が同じ服装をしている場合にも対応できるように、チームメンバーでデータをよく観察しながら開発を進めて、ようやく『人の行動の性質』に着目して解析を2段階に分ける手法を思いつくことができた」と、開発時のエピソードを語った。