Metaは現地時間2023年8月2日、「AudioCraft」を更新したと公式ブログで発表した。AudioCraftはテキストベースで楽曲作成を行うAI(人工知能)で、入力内容から音楽を生成する「MusicGen」「AudioGen」と高音質の楽曲を生成する「EnCodec」で構成され、今回EnCodecデコーダーの改良を加えた。ソースコードはGitHubから入手できる。

  • AudioCraftの楽曲生成構造

    AudioCraftの楽曲生成構造

AudioCraftはEnCodecコーデックを使用して生の信号から離散的にオーディオトークンを学習し、音楽用の新たな「語彙」を提供する。続いて離散したオーディオトークンに対して自己回帰言語モデルを学習させ、新たなトークンと新しいサウンドで音楽を生成する仕組みだ。なお、AudioCraftはテキストのみならず、音楽データの入力にも対応する。また、楽曲生成用のMusicGenは、すでに40万時間相当の学習を施している。Metaは「プロのミュージシャンが楽器を弾かずに新しい作曲を探求できることを想像してほしい。あるいはインディーズゲーム開発者が、わずかな予算でリアルなサウンド効果やアンビエントノイズを加える。もしくは中小企業の経営者がInstagramへの投稿にBGMを簡単に加えられる」とAudioCraftの利点を紹介した。