三菱電機は7月22日、同社のAI(人工知能)技術である「Maisart(マイサート)」を用いて、車載機器やロボットなどの多様な機器が複数のセンサーを用いて収集した情報(マルチモーダルセンシング情報)から周囲の状況を理解し、人と自然な言葉で円滑な意思疎通ができる「Scene-Aware Interaction(シーン・アウェア インタラクション)技術」を開発したと発表した。同社によると、同様の技術の開発は世界初とのこと。
同技術では、独自のEnd-to-End深層学習(ディープラーニング)により人と機器の円滑な意思疎通を実現したという。
入出力のサンプルのみで学習できるというEnd-to-End(エンドツーエンド)深層学習を採用し、カメラで撮影した画像情報、マイクロフォンで集音した音響情報、ライダーやレーダーで取得した位置情報などのマルチモーダルセンシング情報から、周囲で起きている状況を機器が理解するとのこと。
また、マルチモーダルセンシング情報の中で重要度の高い情報に自動で重み付けを行う、独自のマルチモーダル・アテンション法を用いて、機器が理解した内容に対し自然な言葉を用いて詳細に表現するような学習モデルを構築したとしている。
機器が理解したこれまでの状況や人の発話の履歴から自然な言葉を生成することで、人と機器との円滑な意思疎通を実現したとしており、従来の視覚情報のみの手法と比較してCIDErでの評価が29%改善したとのこと。
なお、同技術の適用に向けたアプリケーションの1つとして、人と車載機器が自然な言葉で対話する経路案内システムを構築したという。