2022年10月25日、MetaのFundamental AI Research team(FAIRチーム)は、AIを使って音声データを圧縮する技術「Encodec」の開発を発表した。この技術は、音声データの品質を保ちながら、64kbpsでMP3と比較して約10倍の圧縮率を達成したという。では、このMetaのAIを使った音声データ圧縮技術とはどのようなものなのか、どのような点がすごいのか、今回は、こんな話題について紹介したいと思う。
AIで音声データを圧縮する「Encodec」とは?
データ圧縮技術は、わたしたちの普段の生活にはなくてはならないものだ。皆さんがご存知の圧縮技術形式には、例えばzip、jpeg、mpegなどがあるだろう。データ圧縮とは、ファイルのデータを再エンコードして元のファイルよりも少ないビット数で保存し、ファイルのサイズを小さくするプロセスのことだ。不要な情報のビットを削除することでファイルサイズを減らす非可逆圧縮や、情報を1ビットたりとも削除せずにファイルサイズを減らす可逆圧縮などがある。
ではなぜMetaは、AIを活用した音声データ圧縮技術を開発したのだろうか。Metaは次のように述べている。
"Most classic codecs leverage human hearing knowledge (psychoacoustics) but have a finite or given set of handcrafted ways to efficiently code and decode the file. We are probably close to the limit of what handcrafting can give us, which is why it’s important to explore new techniques."
つまり、ファイルを効率的にコーディングおよびデコードするためのハンドクラフト(手作り的な手法)には限界が近づいているため、AIを活用した新しい技術を開発する必要があるというのだ。
今回Metaが開発したEncodecは、大きく3つの要素で構成されている。1つ目が、圧縮されていないデータを取得し、それを高次元で低フレームレートの表現に変換するエンコーダ。2つ目が、エンコーダで変換した表現をあるターゲットサイズに圧縮する量子化器。3つ目が、圧縮された信号を可能な限りオリジナルに近い波形に戻す非可逆圧縮のデコーダだ。
この技術は、音声データの品質を損なうことなく64kbpsでMP3と比較して約10倍の圧縮率を達成したという。Metaは、従来からこのような音声データに関する圧縮技術を開発する試みはあるが、音楽配信の標準である48kHzサンプリングのステレオオーディオで実施したのは、同社が初めてだとしている。
いかがだっただろうか。今回のMetaのEncodecは音声データに関する圧縮技術であるが、Metaでは、今後ビデオ関連の圧縮技術についても開発を進めていくという。さらに、ネットワークの状態が悪いときでも、より高速で高品質の通話をサポートし、大幅な帯域幅の改善を必要とせずにリッチなメタバースエクスペリエンスを提供することを目指すという。