NECは、人が自然に発話した音声(話し言葉)から、人名や地名などの複数のキーワードを高精度に認識し抽出する音声認識技術を開発したと発表した。
新たに開発したのは、人名や日付など、検索条件のキーワードが文中のどのような文脈で出現したかを確率モデルとして学習し利用することで、入力音声からキーワードの出現位置と種類を自動的に推定するもの。
例えば、レストランを検索する場合、検索条件となる料理名の周囲には「~のお店」「~がおいしい」のような特徴的な表現が頻出するため、これらを自動学習し、随時利用することで、高精度なキーワード位置と種類の推定を実現するという。
また、どのような単語がどのように並びやすいかという言語モデルの組み合わせ方をミリ秒単位の時間で瞬時に制御する認識方式も開発。検索キーワードに依存する言語モデルを上記の種別の推定結果に従って制御し、音声認識処理を検索キーワードに適応する。
同社では、これらの技術を用いて、TV番組検索、レストラン検索などのシステムを想定した性能評価を行った結果、検索キーワードの音声認識誤り率を、従来比で約3割削減したという。
NECでは、これまで音声認識の技術を、「VoiceDo」をはじめ、電話音声応答システム「CSVIEW/VoiceOperator」、コンタクトセンタ支援ソフト「CSVIEW/VisualVoice」、音声認識ミドルウェア「WebOTX Speech Recognition」、議事録作成支援ソフト「VoiceGraphy」などで利用している。同社では、今回開発した技術はこれらのソリューションのほか、営業管理システムやグループウェア等におけるモバイル端末からの音声入力といった、様々な場面への応用が期待できるとしている。