富士通研究所は3月31日、高品質で多彩な声を短期間で作成でき、利用シーンや利用環境に合わせたトーンで情報を伝える音声合成技術を開発したと発表した。従来比約30分の1の短時間で作成できるという。

テキストを音声で読み上げる音声合成技術は、交通情報の放送や住民向けに地域の情報を放送する市町村防災行政無線、美術館・博物館の展示ガイダンス音声、電話による自動音声応答システム、カーナビなどに利用されている。

しかし従来の音声合成技術は、話速や声の高低などの単純な調整は可能だったが、利用シーンや利用環境にあった声やトーンでの合成が困難で、伝えたい情報やイメージが十分に伝わらないという問題があったという。また、サービスに使用する高品質な音声合成の声を新しく作成したいというニーズがあったが、すぐには作成できないという問題もあった。

音声合成技術は、従来、あらかじめ大量に収録した音声波形を繋ぎあわせて合成する方式だったが富士通研究所が今回開発した技術は、音声を、声質、イントネーション、間の取り方、といった音声の複数の特徴をうまく捉えたパラメーターに変換して合成する方式。

開発した音声合成の概要

これにより、警告感のある声や通りやすい声といった特徴的な声のトーンと、普段の声のトーンとの違いをパラメーターに反映させることにより、現場の状況に応じたトーンの音声合成を実現する。また、話速や声の高さ、明るさを一様に調整するだけではなく、リアルな表現で情報を伝えることができるという。

作成時間の短縮では、パラメーターに変換する技術と、機械学習を用いたアルゴリズムにより、音声の特徴を効率的に抽出できるので、元となる音声の収録が少量で済み、高品質で多彩な声を従来の約30分の1(同社比)の期間で作成できるようになったという。

今回開発した技術を用いると、例えば工場で運用中のシステム稼働状況を作業員に音声で通知するシステムでは、通常メッセージは普通のトーン、エラーメッセージは警告感のあるトーン、緊急時のメッセージは強い警告感のあるトーンで通知することができるほか、騒音レベルに応じて、声の通りやすさを変えることで、騒音が激しいところでもスピーカーからの情報を聞き取りやすくなるという。

富士通研究所では、2014年度中の実用化を目指している。

開発した音声合成の利用例