近未来テクノロジー見聞録(240) Metaが開発したAIの力で音声データを圧縮する技術「Encodec」とは?

2022年10月25日、MetaのFundamental AI Research team(FAIRチーム)は、AIを使って音声データを圧縮する技術「Encodec」の開発を発表した。この技術は、音声データの品質を保ちながら、64kbpsでMP3と比較して約10倍の圧縮率を達成したという。では、このMetaのAIを使った音声データ圧縮技術とはどのようなものなのか、どのような点がすごいのか、今回は、こんな話題について紹介したいと思う。

AIで音声データを圧縮する「Encodec」とは？

データ圧縮技術は、わたしたちの普段の生活にはなくてはならないものだ。皆さんがご存知の圧縮技術形式には、例えばzip、jpeg、mpegなどがあるだろう。データ圧縮とは、ファイルのデータを再エンコードして元のファイルよりも少ないビット数で保存し、ファイルのサイズを小さくするプロセスのことだ。不要な情報のビットを削除することでファイルサイズを減らす非可逆圧縮や、情報を1ビットたりとも削除せずにファイルサイズを減らす可逆圧縮などがある。

ではなぜMetaは、AIを活用した音声データ圧縮技術を開発したのだろうか。Metaは次のように述べている。

"Most classic codecs leverage human hearing knowledge (psychoacoustics) but have a finite or given set of handcrafted ways to efficiently code and decode the file. We are probably close to the limit of what handcrafting can give us, which is why it’s important to explore new techniques."

つまり、ファイルを効率的にコーディングおよびデコードするためのハンドクラフト(手作り的な手法)には限界が近づいているため、AIを活用した新しい技術を開発する必要があるというのだ。

今回Metaが開発したEncodecは、大きく3つの要素で構成されている。1つ目が、圧縮されていないデータを取得し、それを高次元で低フレームレートの表現に変換するエンコーダ。2つ目が、エンコーダで変換した表現をあるターゲットサイズに圧縮する量子化器。3つ目が、圧縮された信号を可能な限りオリジナルに近い波形に戻す非可逆圧縮のデコーダだ。

EncodecによるAIを活用した音声データ圧縮プロセス(出典:Meta)

この技術は、音声データの品質を損なうことなく64kbpsでMP3と比較して約10倍の圧縮率を達成したという。Metaは、従来からこのような音声データに関する圧縮技術を開発する試みはあるが、音楽配信の標準である48kHzサンプリングのステレオオーディオで実施したのは、同社が初めてだとしている。

従来のMP3とEncodecを使用した場合の圧縮率の比較(出典:Meta)

いかがだっただろうか。今回のMetaのEncodecは音声データに関する圧縮技術であるが、Metaでは、今後ビデオ関連の圧縮技術についても開発を進めていくという。さらに、ネットワークの状態が悪いときでも、より高速で高品質の通話をサポートし、大幅な帯域幅の改善を必要とせずにリッチなメタバースエクスペリエンスを提供することを目指すという。

齊田興哉

さいだともや

この著者の記事一覧はこちら

Metaが開発したAIの力で音声データを圧縮する技術「Encodec」とは?

目次

AIで音声データを圧縮する「Encodec」とは？

齊田興哉

この連載の前後回

AIが勧める、あなたのための会員限定記事

広島県が取り組むAI活用に迫る第3回高校生がAI人材になれるよう支援する「ひろしまAI部」とは

Dirac Audioを搭載したPCで不具合、Windows 11バージョン24H2の提供一時停止

軍事とIT 第589回システムの統合化(23)米海軍に見る複合戦指揮官コンセプトと指揮統制システム

サイフューズとSCREEN、細胞製品の品質評価を効率化する新技術を開発

筑波大と三井不動産、次世代サイエンスパーク実現に向け産学連携協定を締結

Samsungが半導体事業の本拠地を平澤に移転か？　韓国メディア報道

編集部が選ぶ関連記事

近未来テクノロジー見聞録第6回人工知能でヒトの感情が読み取れる!?　実用化も始まった感情認識AIとは

近未来テクノロジー見聞録第217回 AIを使って声から疾患を特定する南フロリダ大学の取り組みとは？

近未来テクノロジー見聞録第167回音波を制御、変調できるチップをハーバード大が開発！

近未来テクノロジー見聞録第93回離れた場所から特定の人だけに音を伝えることができるMITのテクノロジー！

関連リンク

カイロス2号機現地取材 - 南紀の空へ、カイロスはついに羽ばたいた(写真特集)

京大と鹿島、月や火星上の人工重力施設に関する共同研究を本格スタート

「世界で初めて、大日如来と曼荼羅を宇宙へ運んだ」カイロス2号機の結果受け、宇宙寺院劫蘊寺が発表

アストロスケール、ISSA-J1ミッションの開発をフェーズIからフェーズIIへ移行

Synspectiveが東証グロース市場に上場 - 6機目の衛星打ち上げが目前

アストロスケールのデブリ除去衛星「ADRAS-J」、デブリから約15mの距離まで接近に成功

このカテゴリーについて

Metaが開発したAIの力で音声データを圧縮する技術「Encodec」とは?

目次

AIで音声データを圧縮する「Encodec」とは？

齊田興哉

この連載の前後回

AIが勧める、あなたのための会員限定記事

広島県が取り組むAI活用に迫る 第3回 高校生がAI人材になれるよう支援する「ひろしまAI部」とは

Dirac Audioを搭載したPCで不具合、Windows 11バージョン24H2の提供一時停止

軍事とIT 第589回 システムの統合化(23)米海軍に見る複合戦指揮官コンセプトと指揮統制システム

サイフューズとSCREEN、細胞製品の品質評価を効率化する新技術を開発

筑波大と三井不動産、次世代サイエンスパーク実現に向け産学連携協定を締結

Samsungが半導体事業の本拠地を平澤に移転か？ 韓国メディア報道

編集部が選ぶ関連記事

近未来テクノロジー見聞録 第6回 人工知能でヒトの感情が読み取れる!? 実用化も始まった感情認識AIとは

近未来テクノロジー見聞録 第217回 AIを使って声から疾患を特定する南フロリダ大学の取り組みとは？

近未来テクノロジー見聞録 第167回 音波を制御、変調できるチップをハーバード大が開発！

近未来テクノロジー見聞録 第93回 離れた場所から特定の人だけに音を伝えることができるMITのテクノロジー！

関連リンク

カイロス2号機現地取材 - 南紀の空へ、カイロスはついに羽ばたいた(写真特集)

京大と鹿島、月や火星上の人工重力施設に関する共同研究を本格スタート

「世界で初めて、大日如来と曼荼羅を宇宙へ運んだ」 カイロス2号機の結果受け、宇宙寺院 劫蘊寺が発表

アストロスケール、ISSA-J1ミッションの開発をフェーズIからフェーズIIへ移行

Synspectiveが東証グロース市場に上場 - 6機目の衛星打ち上げが目前

アストロスケールのデブリ除去衛星「ADRAS-J」、デブリから約15mの距離まで接近に成功

このカテゴリーについて

広島県が取り組むAI活用に迫る第3回高校生がAI人材になれるよう支援する「ひろしまAI部」とは

軍事とIT 第589回システムの統合化(23)米海軍に見る複合戦指揮官コンセプトと指揮統制システム

Samsungが半導体事業の本拠地を平澤に移転か？　韓国メディア報道

近未来テクノロジー見聞録第6回人工知能でヒトの感情が読み取れる!?　実用化も始まった感情認識AIとは

近未来テクノロジー見聞録第217回 AIを使って声から疾患を特定する南フロリダ大学の取り組みとは？

近未来テクノロジー見聞録第167回音波を制御、変調できるチップをハーバード大が開発！

近未来テクノロジー見聞録第93回離れた場所から特定の人だけに音を伝えることができるMITのテクノロジー！

「世界で初めて、大日如来と曼荼羅を宇宙へ運んだ」カイロス2号機の結果受け、宇宙寺院劫蘊寺が発表