日立INSソフトウェアは8月20日、大規模な音声データまたは音声付き映像データから高速・高精度で任意のキーワードを含む音声を検索するソリューション「Voice Searcher」を発売した。最小構成の価格は400万円(税別)から。

新ソリューションは、音素の記号列と音声特徴量による検索方式を組み合わせ、多段階の照合を行うことで、2,000時間分のデータから約3秒(同社環境における実測値)で検索結果を導き出す。

ユーザはテキスト検索と同様に任意の文字列をキーワードとし、音声データおよび音声付き映像データを検索できるという。

音声データを音素の記号列に変換した上で、音素の出現タイミングをインデックス(索引)として保存し、検索に利用する。このインデックスの最適化により、高速化を実現した。

Voice Searcherの製品構成

精度向上のため、音素による検索処理の後で音声特徴量を用いた絞込みを行う。 段階的に精度を高めながら絞込み検索処理を行う(多段階リスコアニング)ことで、検索速度を損ねず高精度の検索が可能になったという。

インデックスを検索対象とする方式のため、キーワード登録や辞書のメンテナンスなど事前の準備や運用の手間が不要としている。