Googleは2017年12月19日(米国時間)、「Research Blog: Tacotron 2: Generating Human-like Speech from Text」において、これまでよりも自然な音声を生成する技術「Tacotron 2」について伝えた。この技術を使うこと、でテキストからより自然な音声を生成することができるとしている。
Tacotron 2を使って生成された音声は「Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"」で確認できる。それぞれ学習の過程を経てより自然な音声が生成される様子を確認することができ、最後のサンプルでは人間と機械音声の差を聞き分けるのはかなり難しいところまで自然になっている。
Tacotron 2では複雑な言語や音響機能などは利用していない。Tacotron 2ではテキストとそれに対応するスピーチサンプルをニューラルネットワークトレーニングによって学習させるという手法を取っている。開発された技術の詳細は「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」に説明がまとまっている。
Tacotron 2によって生成された音声はかなり自然に聞こえるほか、スペルミスや文章中のちょっとしたニュアンス(人であれば自然と行っているニュアンス)の表現にも対応。サンプルを聴く限りではどちらが機械音声でどちらが人間の音声を録音したものかの区別をつけることが困難なレベルに到達している。
本稿執筆時点で、Tacotron 2はリアルタイムの処理はできず、複雑な単語も発音することができない。加えて、時折ノイズも生成してしまう、悲しみや楽しさといった感情を音声として表現することもできないといった課題もあるという。
テキストから音声を生成する技術はこの数年で大幅な進化を遂げており、すでに大手ベンダーがクラウドベースでAPIを提供している。こうしたAPIを用いたプロダクトも日常的に活用されるようになってきている。