富士通研究所は11月16日、超高圧縮した映像からでも高精度に映像の内容を認識できる映像圧縮技術を開発したと発表した。

  • (上)従来のH.265を用いた画像ベースAI認識のフレームワーク、(下)AI認識に特化した特徴量圧縮のフレームワーク

    (上)従来のH.265を用いた画像ベースAI認識のフレームワーク、(下)AI認識に特化した特徴量圧縮のフレームワーク

同社が開発したのは、高次元データの分布・確率などの本質的な特徴量を正確に獲得する同社独自のAI技術「DeepTwin」を深層特徴量の圧縮に応用した映像圧縮技術。

評価尺度を画像認識AIの認識率として定めることで、認識率に必要な次元以外が削減されるようにオートエンコーダが学習され、認識率を維持したまま従来の画像ベース方式を大きく超える深層特徴量圧縮性能を可能にしたという。

また、DeepTwinで圧縮後の特徴量が持つ情報量は一部に大きく偏った分布となり、これが一部に必要な情報が凝縮されていることを意味しているから、圧縮後の特徴量のうち、情報量が低く認識率への影響が小さいデータから段階的に削減するように加工すれば、必要な認識率に応じてデータ量を制御できるという。

  • 特徴量復元のための学習方法(青)と、本技術によるオートエンコーダの学習方法(赤)

    特徴量復元のための学習方法(青)と、本技術によるオートエンコーダの学習方法(赤)

同技術を用いることで、画像認識精度を低下させることなく、従来方式を大きく超える高圧縮を行えるという。具体的には、AI認識モデルの一種であるVGG16を用い、映像に映っている物体を汎用的な用途として100カテゴリに分類するタスクに対して同技術を適用した場合、非圧縮の認識率から5%劣化するときの、H.265を用いた画像ベースの方法と比較して、100倍の圧縮性能を達成できたという。

また、例えば自動車やトラック、オートバイといった車両の分類など特定用途を想定して20カテゴリに分類する場合には、300倍の圧縮性能となり、いずれの認識劣化量の場合においてもH.265ベースの方式と比較して高い圧縮性能を達成できたということだ。

この技術を活用することで、画像認識AIソリューションの普及による映像伝送データ量の増加を抑制し、限りある通信資源の効率的な利用を可能にするとしている。

  • 画像認識AIモデルとしてVGG16を用いた場合のH.265と本技術の圧縮性能の比較

    画像認識AIモデルとしてVGG16を用いた場合のH.265と本技術の圧縮性能の比較