富士通研、高品質な音声合成技術を開発 - CMOS評価で約80%を達成

富士通研究所は7月27日、人間の声に近づいた音声合成技術を開発したと発表した。同技術による合成音声は、音声品質の評価方法であるCMOS(Comparison Mean Opinion Score)評価において、プロのナレーションの品質の約80%となる高いスコアを達成している。

これまで、合成音声をより自然で人間の音声に近づけるには幾つかの課題があった。例えば、人が文章を読み上げる際、いくつかの音が自然にまとまり、無意識のうちに日本語独特のリズム(発話リズム)で発声しているが、音声合成で人間らしい流暢な語り口を実現するためには、このような発話リズムを適切に制御することが必要となっていた。また、合成音声は入力した文章に適した音声波形をつなぎ合わせることにより生成されるが、人間の声と区別がつかないほどに歪みのない声質を実現するためには、どのような文章の入力に対しても最適な音声波形を用意できる音声波形データベースを開発することが課題となっていた。

今回、同社では独自の発話リズム制御モデルと音声波形データベースを開発することで、これらの課題を解決した。発話リズム制御モデルでは、人間の発話リズムを解析するための新たな統計手法を開発し、独自の制御モデルを構築した。これにより、各音の長さについて、肉声との差を従来の2/3に抑え、1つひとつの音の長さのバランスがとれた、流暢な読み上げ音声が実現された。

一方のデータベースでは、さまざまなイントネーションを網羅し、かつ使用頻度の高い単語や文例を中心とした、従来比として約10倍となる数万個フレーズからなる大規模音声波形データベースを構築。同データベースを用いることで、合成文章に適した音声波形を選択することができるようになり、各単語間のつながりなど、機械的な歪みのない合成音声が生成できるようになったという。

開発された音声合成技術の概要

なお、同社では、同技術を用いることで明瞭さと自然さを兼ね備えたプロのナレータの音声に迫る読み上げが可能になり、各種アナウンスなど、さまざまな利用シーンで最適な合成音声が利用できるようになるとしており、今後、各種利用シーンに対して迅速な適用を可能にするための機能強化を図り、2009年度上期中の実用化を目指すとしている。