説明会でリアルタイム音声認識を実演

会見内では、AmiVoice Cloud Platformの体験版を利用したリアルタイム音声認識が実演された。発話はアドバンスト・メディアの山下雄也氏によって行われた。

同サービスのWebサイトにて利用できる体験版は、30秒間の音声を自動でテキスト化する。また言語は日本語・中国語・英語から、言語モデルとしては、汎用会話から医療領域、金融領域など6種類から設定が可能だ。

1度目の実演では数か所の認識ミスが発生したものの、2度目の実演ではほとんど誤字が見られなかった。また、言葉に詰まった場合に間をつなぐ感動詞はテキストに反映しないなど、自然な発話のテキスト化を行っていた。

  • 文字起こし実演の内容。冒頭の「と」は認識開始時のラグによるもので、認識ミスはテキスト中盤の「ところも」のみだった。

    文字起こし実演の内容。冒頭の「と」は認識開始時のラグによるもので、認識ミスはテキスト中盤の「ところも」のみだった。(提供:アドバンスト・メディア)

さらに記者向けには、自社の技術を活用したクラウド型議事録作成支援ツール「CyberScribe」を使用した会見の文字起こしデータが、会見終了から約20後に共有された。筆者の所感としては、理解不能な文章はまったく発生しておらず、誤字などのミスも少なく抑えられていると感じた。

  •  CyberScribeのロゴ

    CyberScribeのロゴ(提供:アドバンスト・メディア)

音声認識技術が当たり前に使われる社会へ

今後拡大が予想される音声認識市場において、AISHの実現を目指すアドバンスト・メディアは、同社の音声認識の技術やノウハウを広く公開していくという。

大柳氏は会見内で「音声認識の技術を、水や空気のように当たり前の存在として使える社会に貢献したい」と語った。

しかし、同社だけの力では音声認識の技術を社会に普及させることは難しいとした上で、「弊社の培った技術やノウハウを公開し、各社のサービスに組み込んでいただくことで、より多くの人に使ってほしい。そしてその結果、音声認識の効果を実感してもらいたい」としている。

  • アドバンスト・メディアが目指す未来

    アドバンスト・メディアが目指す未来(提供:アドバンスト・メディア)