東芝は2月20日、処理能力に制約があるエッジデバイス上でも高速に動作する音声キーワード検出機能付き話者認識AIを開発したことを発表した。

  • キーワード検出で用いた情報の活用

    キーワード検出で用いた情報の活用

同技術は、ネットワークに接続していなくても、エッジデバイス上でキーワード検出と話者認識を同時に行えるもの。家電に搭載することで、家電がネットワークに接続していなくても3回の発話で完了する話者登録に加え、音声による操作、話者に合わせて機器の動きを変更できるという。

この技術の特徴は2つあり、1つ目の特徴はキーワード検出で用いる情報の活用。音声が入力されると、キーワード検出のニューラルネットワークで周辺雑音などの影響を吸収しつつ音声処理を行うが、このニューラルネットワークの中間出力を使って話者登録・話者認識を行うという。これにより、話者認識の際にも周辺の雑音の影響を抑えられるほか、話者認識のための音声処理の時間を大幅に削減できるという。

  • ニューラルネットワークのデータ拡張手法の活用

    ニューラルネットワークのデータ拡張手法の活用

2つ目の特徴は、ニューラルネットワークのデータ拡張手法の活用。データ拡張手法とは少ないデータで学習する手法の1つで、ニューラルネットワークのノード間の接続の重みをランダムにゼロにすることで、同じ話者がさまざまなしゃべり方で発話したような音声情報を模擬的に生成できるという。

話者を識別するためには、AIに話者を学習させる必要があるが、同手法を使えば、話者の発話数が少なくても話者を学習でき、話者登録時の必要発話数の削減を実現できるという。

この手法を各話者3回の発話を登録に用いるという条件で比較評価を行った結果、話者認識の一般的な手法であるi-vectorでは話者100名の識別精度が71%であったが、同手法では89%という結果が得られたという。実際にエッジデバイスを操作する場面では、登録話者は5〜10名程度と想定され、同社では十分に実用性能があるとしている。また、サーバーで計算量、処理速度の計測を行ったところ、ともに組込みシステムでも問題なく動作したということだ。

なお、東芝はこの技術の詳細を、2月22日~24日にマルタで開催される国際学会 ICPRAM 2020 にて発表するとしている。