NECは11月14日、アナウンサーの読み方や区切り方、アクセントまでを再現可能な、テキスト音声合成の新製品「CSVIEW/VoiceOperator(シーエスビュ-/ボイスオペレータ)音声合成」の販売を開始すると発表した。
新製品は、NEC中央研究所の音声合成技術(拡張二段単位選択手法)により、従来製品と比較して合成音声作成時のアクセントやポーズの修正といった、より自然な音声にするためのチューニングを約50%削減すると共にアナウンサーの抑揚やリズムまで再現。
チューニングは、生成した発音記号列に対して、音声データベースと照合し、自動修正を行うことにより、最適なアクセント、ポーズの適用を実現(発音記号列自動修正技術)。これにより専門知識を持たない利用者でも、容易に、テキストから、人間の発声に近い合成音声の作成を実現する。
また、従来の機械学習による「音声素片(音声の最小構成要素)」単位の合成音声生成技術に加え、NEC独自の二段単位選択手法により、従来よりも長い、「文節」単位で音声データベース中に蓄積したアナウンサーの抑揚やリズムのパターン・波形を忠実に再現。これにより、自然でバリエーション豊かな音のつながりが可能となり、人間の発声に近い合成音声を実現させた。
音声データベースに外来語など、日本語では発音しにくい言葉を追加収録し、より聞き取りやすい音声を実現。さらに、大規模なテキスト解析辞書において、地名などを最新のデータに置き換えると共に、同じ文字列でも前の単語により、読み方が変わる地名の正しい読みを実現した。
NECは、IVR領域に対し、音声合成製品を導入した多数の実績があり、新製品はこれらを活かし、より人間の発声に近い自然な合成音声を実現することで、コンタクトセンターでの活用に加え、商業施設や公共交通機関、自治体(防災等)のアナウンスやニュースの読み上げなどへ、適用領域を拡大する。
新製品の価格(最小構成)は350万円(税別)、出荷は12月2日を予定している。