MicrosoftのAIモデル「VASA-1」はディープフェイクのリスクを高める？

Microsoft Researchは4月16日、1枚の顔写真と音声ファイルから、人が話しているように見えるビデオを生成することができるAIモデル「VASA-1」を発表した。VASA-1は純粋な研究目的で開発されたもので、商品化や一般公開は計画されていない。

しかし、Ars Technicaは「Microsoft’s VASA-1 can deepfake a person with one photo and one audio track」において、このようなAIの登場は、実在の人物を使ったディープフェイクの作成を容易にする可能性があると警鐘を鳴らしている。

Microsoft Researchが発表したAIモデル「VASA-1」で作成したビデオの一部

本物の人間そっくりの映像を作り出す「VASA-1」

Microsoft Researchが発表した「VASA-1」では、たった1枚の顔写真を用意するだけで、その顔写真の人物が指定した音声ファイルを読み上げる映像を生成することができる。特筆すべき点は、唇や表情の変化だ。VASA-1は音声ファイルに合わせて顔写真の表情を自然な形で変化させ、まるで本当に話しているかのような映像を作り出す。唇の動きだけでなく、首や頭、髪の毛などといった細部の動きまでリアルに再現する。

Microsoft Researchのページでは、VASA-1によって生成されたデモ動画を見ることができる。

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time - Microsoft Research

VASA-1で生成した映像のデモ　出典：Microsoft Research

元の写真内の人物だけでなく、同じ写真から性別や人種が異なるまったく別人の映像を生成することも可能。写真だけでなく、肖像画を基に生成した映像も公開されている。

肖像画からも映像を生成できる　出典：Microsoft Research

VASA-1はあくまでも"研究のためのデモンストレーション"

Microsoftの研究者は、VASA-1の目的は仮想のキャラクターを本物のようにアニメーションさせることであり、実在の人物が話す映像を作り出すことではないと強調している。実際、上記のサイトで公開しているデモで使われたサンプル写真は、（モナリザを除けば）生成AIの「StyleGAN2」または「DALL-E 3」によって生成されたものであって、すべて架空の人物とのこと。

VASA-1のトレーニングに使われたデータセットは、オックスフォード大学の研究チームによって作られた「VoxCeleb2」とされている。Ars Technicaによれば、VoxCeleb2には、YouTubeにアップロードされた6,112人の有名人の100万以上の発話が含まれているという。

Microsoft Reseachのサイトには、VASA-1は研究のためのデモンストレーションであって、製品化やAPIの公開などは計画していないと記載されている。しかし、同様の技術を研究しているグループはMicrosoftだけではない。これらの研究が進み、その一部がオープンになって自由に使えるようになれば、ディープフェイクに悪用される可能性は十分にあるだろう。生成AI技術の向上と同時に、悪用を防止する技術の向上にも期待しなければならない。