東京工業大学は、同大学工学院の奥富正敏教授、田中正行特定准教授らの研究グループとNECが、一般カメラで撮影した可視光画像とサーモカメラなどで撮影した非可視光画像をAIを用いて合成し、それぞれの画像単独ではとらえにくかった対象物・状況の視認性を格段に高める「マルチモーダル画像融合技術」を共同開発したことを発表した。
近年、熱をとらえるサーモカメラや物体の内部を捉えるX線・テラヘルツ波・ミリ波のカメラなどの非可視光カメラによって、夜間や濃霧などの悪天候、あるいは逆光や遮蔽といった悪条件下でも監視・診断を行う用途が広まりつつある。しかし、こうした非可視光カメラは、可視光に比べて解像度や画質が低く視認性が悪い。そのため、可視光カメラを併設し、両方の画像を見比べながら監視や診断を行う必要があった。
これを解決するために、2種類の画像をひとつに合成することが有効だが、専門家が手動でそれぞれの画像から合成に適した場所を抽出し、複雑な画像合成作業を行う必要があった。さらに、非可視光画像に含まれる、異常や危険物の有無を判断する手がかりとなるわずかな特徴が、合成によって失われる点も課題となっていた。
そこで研究グループは、専門家の変換ノウハウを学習したAIを用いて、可視光カメラと非可視光カメラの画像を自動的かつ効果的に統合し、対象物・状況の視認性を格段に高め、劣悪な環境でも素早く異常や危険物の有無の判断を可能とする「マルチモーダル画像融合技術」を開発した。
同技術では、複数の画像から視認性が高い部分をAIが自動選択し、非可視光画像に含まれるわずかな特徴を強調しながら合成することで、高い視認性を実現している。また、カメラの種類や環境の特性に応じて、AIが画像の部分ごとに視認性を評価し、各画像から最適な領域のみを自動抽出する機能を備えている。さらに、非可視カメラの画像中の異常や危険物などに関するわずかな特徴をAIが解析し、画像破たんが生じない適切な強調の度合いを判断しながら、従来にない高い視認性を持つマルチモーダル(可視-非可視)な融合画像を自動的に生成するということだ。