DeepMindは10月4日(米国時間)、「WaveNet launches in the Google Assistant|DeepMind」において、1年間かけて機械学習により自然な音声を生成する技術「WaveNet」の高速化を進め、現在ではWaveNetがGoogle Assistantの日本語音声と英語音声(米国)に使われていると伝えた。同社のWebサイトでは、WaveNetを使った日本語音声とWaveNetを使っていない日本語音声を聞き比べることができ、WaveNetの音声のほうが自然に聞こえることを確認できる。
WaveNetはかなり自然な音声データを生成できるとして高い注目を集めたが、発表段階ではサービスに利用するには計算の時間がかかりすぎるという課題を抱えていた。DeepMindは処理の高速化に取り組み、最終的に1000倍という高速化を実現したとしている。
オリジナルのWaveNetでは0.02秒の音声を生成するのに1秒かかっていた - 資料: DeepMind提供 |
改善された現在の実装では1秒で20秒分の音声を生成することが可能 - 資料: DeepMind提供 |
音声を使ったスマートデバイスの操作は、この数年で一気にコンシューマに普及した。より自然な音声データの生成はこうしたデバイスの利用シーンをさらに広げる要因の1つになると見られる。WaveNetが生成する日本語音声は注意して聞かなければ、録音状況が悪いネイティブ録音ではないかと思うくらいに自然に感じることができる。