大日本印刷(以下、DNP)は8月24日、NHKテクノロジーズ(以下、NT)と共同で、映像と音声をAIで解析し、内容や感情に合わせたイメージのフォントで字幕を表示する「感情表現字幕システム」のプロトタイプを開発したと発表した。

  • 一般的な字幕

  • 音声解析して言葉に適したフォントで字幕を自動生成

同システムは、2018年にDNPが開発した文章の内容に合うフォントを自動で判別して表示する「DNP感情表現フォントシステム」を活用しており、録画やライブ(生放送)の音声を解析して、リアルタイムで字幕を自動的に付与する。その際、字幕の内容や発話者の表情を解析して感情を把握し、その感情の表現に最適なフォントを12種類の中から自動で選んで字幕に使用する。

  • 12種類の感情・イメージと使用フォントの組み合わせ例(感情の分類やフォントは手動で変更可能)

  • 同じセリフでも感情の違いをフォントで表現

また、映像内の発話者を特定して、自動的にその口元の近くに字幕を表示できる機能がある。これにより、複数の人物が登場する映像でも、誰が何を話しているかを直感的に伝えることが可能だとしている。

両社は今後、同システムの開発を継続し、字幕放送での実用化や、音声認識・感情認識のAI精度の向上、リアルタイム性の向上、生放送やインターネット同時配信サービスの字幕への展開も目指すとのこと。さらにDNPは、デジタルサイネージなどの動画の字幕に応用するほか、誰でも利用できる映像編集用ソフトウェアとして提供していく方針だ。