Google DeepMind、テキストプロンプトで"口パク"にも対応するサウンドトラック生成技術

Generating audio for video(公式ブログ)

Google DeepMindのジェネレーティブメディアチームは現地時間6月17日、ビデオ生成モデル「Veo」と組み合わせて、生成した無音動画に同期したオーディオビジュアルを生成する研究中のV2A(video to audio)技術の現状を公式ブログで発表、スリラー、ホラー、宇宙空間などのシチュエーションに合わせて生成されたサウンドトラックを公開している。

ビデオ生成モデル「Veo」と動画から音声を作成するV2A技術でAIが音声付き動画を生成

チームが今回公開した研究は、「Veo」で生成された無声動画にAIでサウンドトラックを生成する技術で、V2A(video to audio)技術と呼ばれており、ビデオのキャラクターや雰囲気、環境、シチュエーションなどにマッチした音楽や会話、観客の歓声や足音、動物の鳴き声、ドラムの音、車のエンジン音やスリップ音などを生成する。またオプションで「ポジティブなプロンプト」と「ネガティブなプロンプト」を定義し、ある程度感性に合わせた制御も行うことも可能となっている

サンプル動画。音声プロンプトは「映画、スリラー、ホラー映画、音楽、緊張感、雰囲気、コンクリートの上の足音」(YouTube公式動画より)

また、動画のリップシンク(口パク行為)に対応、入力されたトランスクリプト(会話テキスト)から音声を生成し、登場人物の唇の動きと同期させる技術も改善が進んでいる。Webサイトでは、プロンプトとそれによって作成されたサンプルが複数公開されている。

サンプル動画。音声プロンプトは「音楽、トランスクリプト: 「この七面鳥はすごいね、すごくお腹が空いた」(公式Webサイト)

同技術はオーディオ生成に拡散(diffusion)モデルを採用、ビデオ入力を圧縮表現(compressed representation)にエンコードし、拡散モデルによりランダムノイズから画像入力と自然言語プロンプトに対応したオーディオを生成、繰り返しリファインを行い、デコード、波形変換と加工されビデオデータと結合される。オーディオ生成エンジンにはモデルが特定のサウンドを生成する機能を実装するため、AIトレーニングのプロセスでサウンドの詳細説明、AI生成の注釈など多くの情報を追加し、ビジュアルに合わせた関連付け学習を行っている。

V2Aシステムの概念図(同社資料より)

気になるのが生成されるサウンドのセキュリティ面だが、生成されるコンテンツには、透かしを入れコンテンツを識別する技術「SynthIDツールキット」を組み込むことで技術の悪用から保護を行うという。より幅広い一般公開を検討する前に、クリエイターや映画製作者などからの多様な視点や洞察、フィードバックを得て、厳格な安全性評価とテストを行う旨を述べている。