Googleの研究者がデジタルアバター合成のためのマルチモーダル拡散モデル「VLOGGER」の研究成果を公表した。人物を写した画像1枚と音声データから、自然な表情とふるまいで話すリアルなデジタルアバターを生成できる。

入力した画像
生成されたビデオ

特定の人物の顔の生成や顔の動きの再現では、個人のデータセットに基づいてモデルを再トレーニングしたり、微調整するのが一般的である。しかし、研究論文「VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis」によると、VLOGGERはMENTORというデータセットを用いることで、人物ごとのトレーニング、顔検出やクロッピングを不要にしている。

MENTORは、フルボディでコミュニケーションを行う人をモデリングすることを目的に構築されたデータセットである。10秒の動画クリップ(24fpsで240フレーム、16kHzのオーディオ)で、身長、体のポーズ、視点、話す内容、体の可視性などが異なる多様なデータで構成される。トレーニングセットは、2,200時間以上、80万以上のアイデンティティ、テストセットは約120時間、約4,000のアイデンティティを含む。

従来のデータセットを数倍上回る規模、そして動的な手のジェスチャー、異なるスキントーン/年齢/性別を含む多様なシナリオの考慮、3Dのボディジョイントと手の推定、カメラに向かって話すコミュニケーションに焦点を当てたキュレーションなどを特徴としている。従来の顔の検出と顔の領域のクロッピングを用いる手法では、顔に焦点が当てられ、顔以外の部分の表現が不自然になることがあるが、MENTORでは、人物ごとのトレーニングを行うことなく、1枚の画像から、上半身の動きやジェスチャーも含めて、コミュニケーションする人の自然な動きを生成できることを確認できた。

Googleの研究者はVLOGGERによる生成例として、プロジェクトページで年齢や性別、人種の異なる様々な人の生成ビデオ、取り込んだビデオに映っている人物の表情の変更、実際に話している言語とは異なる音声に合わせて顔の動きを生成したビデオなどを公開している。VLOGGERは、ビデオ編集、アバターによるプレゼンテーションやオンラインコミュニケーション(低帯域幅の環境でもアバターを動かすことが可能)、翻訳ビデオなど、様々なユースケースの可能性を秘めている。

元のビデオから人物の表情を変えるビデオ編集