NTTテクノクロス、精度向上や多言語対応した音声認識ソフト「SpeechRec」

NTTテクノクロスは6月22日、音声認識ソフトウェア「SpeechRec」をバージョンアップし、同日から提供すると発表した。

「SpeechRec」は、NTT メディアインテリジェンス研究所が開発した音声認識エンジン「VoiceRex」を搭載した音声認識ソフトウェア。今回の「SpeechRec」のバージョンアップでは、新しい「VoiceRex」を採用することで音声認識率の向上を図るとともに、10言語の多言語化と高言語識別を実現し、さらに多様な周囲雑音がある環境下での発話であっても精度良く検出できるようになったという。

これにより、コンタクトセンターにおける音声認識精度の向上や対話ロボットでの音声認識などの用途で利用できるという。

音声エージェントとの対話を想定した発話（例：「横浜から大手町まで」）の評価において、誤りが約20%改善したという。

「VoiceRex」は、NTTグループが推進しているAI技術「corevo」を支える重要な技術の一つで、CNN-NIN（Convolutional Neural Network and Network In Network）技術を採用している。

「SpeechRec」はサーバ・クライアント型の構成で、ユーザーはクライアントアプリ開発用のSDKを利用してアプリを開発することができる。

SpeechRecの構成イメージ

多言語対応では、日本語、英語、中国語（北京、広東、台湾）、韓国語、タイ語、ベトナム語、マレーシア語、インドネシア語対応。日本語と英語については、コンタクトセンターなどでの自然な会話の認識も高精度に行うことが可能としている。

多言語に対応では今回、自動的に言語を識別する機能を採用し、平均5秒程度の発話から 99.5%の精度で言語識別が可能な性能を実現したという。

また、実際に人が発話し始めることにより自動的に音声認識を開始し、話し終わると同時に自動的に音声認識を終了することで使い勝手が良くなり、発話前後の余計なデータを送らないことで効率的に認識できるという。

さらに今回新たに、DNN（Deep Neural Network）技術をベースとした音声区間検出雑音抑圧エンジンを搭載したことで、車内や駅などの周囲雑音が大きい環境においても従来型よりも平均で約2%の認識率の向上が確認できたという。