報道機関において、取材から得られる映像や音声の内容をテキスト化する「文字起こし」は欠かせない作業です。とはいえこの作業は、記録されている実時間に対して数倍の時間を必要とし、報道局における日々の業務時間を大きく圧迫していました。
この文字起こしの労力を減らし、働き方改革に務めているのが、中京広域地域でテレビ放送を行う中京テレビ放送株式会社です。同社は AI による自動文字起こしシステムの開発を検討。Microsoft Azure で提供している学習済み AI サービスのひとつ「 Cognitive Services 」を採用。その一機能である音声解析を利用することで文字起こしの自動化が可能となり、労務改善を実現しました。
報道局の課題「文字起こし」を解決すべく AI の活用を検討
中京テレビ放送は、中京広域地域(愛知・岐阜・三重)において放送法によるテレビの放送事業等を行っている民放テレビ局です。2016 年 11 月、同社は名古屋駅の南に位置する「ささしまライブ」に本社を移転。「地域の信頼と共感を育み、豊かな社会の創造に貢献する」というグループ理念のもと、「あなたの真ん中へ。」をスローガンに掲げながら、地域に根付いた事業を展開してきました。
2017 年より同社は、さまざまな企業と連携を取りながら「先進テクノロジーによるコンテンツビジネスの加速」に取り組んでいます。その例が「中京テレビ ハッカソン HACK-CHU! 」や「中京テレビ INNOVATION PROGRAM 」です。全社を挙げて新規ビジネス開拓への取り組みが進む中、情報システム部が注目したのが、AI を使った開発でした。同社の技術推進局 情報システム部 主事 山本 卓也 氏は、AI を用いたサービス構築に至った経緯を次のように述べます。
「新規ビジネスの芽を発掘するにあたり、現場から課題を集めたところ、残業につながりやすい単調な作業を改善したいという意見が数多く上がりました。課題の中には、たとえば記事の校閲等もありましたが、特に報道局から要望が高かったのが音声から文章を抽出する『文字起こし』です。その課題の解決方法を探った結果、AI の活用という考えにたどり着いたのです」(山本 氏)。
取材などで撮影した報道素材は、まず社内のメディア管理システムに取り込まれ、その後、項目付けや編集システムへの流し込みが行われます。文字起こしはこの途中に行われる作業で、録音された音声をテキスト化することにより、映像の検索性を上げたり、字幕やテロップを付けたりという後工程の手間を減らしているのです。
しかし、この文字起こしは報道局の大きな負担になっていました。ふだんから撮影されている何十もの映像に加え、大きな事件が起こったり、選挙が行われたりすると、その数は膨大な量になります。記者が直接文字を起こすケースもあれば、本社で素材を受け取った担当者が文字を起こすケースもありますが、音声の再生時間以上に手間のかかる作業に対して、多くのリソースを割かねばなりませんでした。
2017 年、中京テレビ放送内で AI ワーキンググループが立ち上がり各部から案件を募集した結果、テーマのひとつとして文字起こしの自動化に挑戦することとなりました。AI ワーキンググループは自動文字起こしシステムを構築するにあたり、株式会社ユニゾンシステムズをシステムベンダーに据え、本格的な開発に乗り出します。
テレビ放送局ならではの課題を含めた開発に取り組んだユニゾンシステムズ
中京テレビ放送とユニゾンシステムズは、Microsoft Azure 上で提供される Cognitive Services( Speech Services )を活用し、AI による音声解析( Speech to Text )を利用して報道素材の文字起こしを自動化することを検討します。
Microsoft Azure を選定した理由として、山本 氏は、中京テレビ放送で 2015 年から Office 365 を利用しておりある程度の知見があったこと、そして Speech Services が日本語に対応していることを挙げます。
ユニゾンシステムズ R&D本部 副本部長 R&D部 部長の木村 文彦 氏は、システム構築面から次の理由を述べました。
「弊社は日本マイクロソフトと長いお付き合いがあり、クラウドの最新情報や海外での事例をいただいているので、日本で最初に Microsoft Azure の提案ができるという強みがあります。また Azure は将来的に認証の部分で Active Directory との連携を行うことが可能です。プラットフォームとして捉えつつ、他システムとの連携やセキュリティ面を考慮すると、Azure が一番提案しやすかったのです」(木村 氏)。
中京テレビ放送はベンダーの選定にあたり、すぐにユニゾンシステムズへの依頼を決めたそうです。その背景には、テレビ放送局ならではの課題があったと山本 氏はいいます。
「ユニゾンシステムズさんとは昔からいろいろなところでお付き合いをさせていただいておりまして、技術力の高さと開発スピードの早さには以前から信頼を置いていました。なにより一番助かるのが、放送局のことをよく知っており、放送局が抱える課題に対しての提案力が高いことです」(山本 氏)。
放送機器や編集システムといった放送局の基幹となる機器は大きな変更を加えることが難しいため、放送局の仕組みについて深く理解しているユニゾンシステムズは、中京テレビ放送にとって非常に心強いパートナーとなりました。
たとえば、クラウドという外部ストレージに映像素材をアップロードすることは、個人情報保護やコンプライアンスの観点からセンシティブな問題となります。ユニゾンシステムズはそうした点を熟知しており、映像素材に含まれる音声を取り出し、音声のみをクラウドに送信、AI によって自動でテキスト化するという工夫を提案したそうです。
ユニゾンシステムズによって開発された AI による自動文字起こしシステムは、映像素材をニアリアルタイム(追っかけ処理)解析するという機能を有しています。社内サーバーにあるメディア管理システムに映像素材を取り込んでから解析指示を行うと、対象となる音声の抜き出しとクラウドへの転送が開始される仕組みになっています。併せて、音声認識の精度を高めるため、解析の前処理としてノイズ除去を行ったり、音声を形態素解析によって 5 ~ 10 秒程度の尺に調整したりします。
最適化された音声はクラウド内で Cognitive Servicesに渡され、AI による解析を行ったあと、結果が返されます。ストリーム映像の場合、約 20 秒程度の遅れで文字起こしが行われるとのことです。抽出されたデータは最終的に放送機器に渡され、今までの報道局のワークフローで行っていた文字起こしのテキストと同じように扱えます。入力音声の品質がよいものについては 85% 以上の精度で正確な文字に変換できるという、実用上十分な性能を実現しました。
「 Microsoft Azure の強みは、このニアリアルタイム解析が行える点にあります。最終的にはリアルタイムを目指したいですが、いかに応答速度を高めていくかがポイントになるでしょう。Azure であれば今後そのための手段が用意され、さらに対応速度を向上させられると思います」(木村 氏)。
なお、中京テレビ放送は 2016 年 11 月にユニゾンシステムズの画像・動画共有システム「 Join-View 」を導入し、社内で活用しています。この Join-View と AI による自動文字起こしシステムを連携することで、有用性をさらに高めていると木村 氏は述べます。
「 Join-View は、社内・社外・遠隔地からでも映像の共有やプレビューが可能なシステムです。映像を DVD に焼いて配ったりする手間を減らしたり、サムネイルで一覧表示したり、映像に対してアノテーションやコメントを残すことができます。この Join-View と AI による自動文字起こしシステムを連携させ、メタ情報として起こしたテキストを付加することで、コンテンツの価値を高めています」(木村 氏)。
労務時間の大幅な短縮を実現した AI による自動文字起こしシステム
2017 年末、中京テレビ放送とユニゾンシステムズによって、システム単独での Speech to Text のトライアルがスタートしました。その結果をふまえ、2018 年初頭には AI による自動文字起こしシステムの開発継続が決定。2018 年冬ごろにはシステムがほぼ完成し、報道局でのテスト運用が開始されました。
一から人間の手で文字を起こす手間に比べ、大幅な時間短縮が実現できる本システム。手間のかかる文字起こし作業から開放されたことで、中京テレビ放送社内ではさっそく喜びの声が上がっているといいます。
「おかげさまで報道局からは『非常にありがたい』『労務時間の短縮につながる』という声をもらいました。現状ではまだ音声の誤認識はありますが、これを人の手で修正し、最終的な確定稿を出しています。本運用開始に向け、システムの最終調整に入っています」(山本 氏)。
山本 氏は AI による自動文字起こしシステムの精度について高く評価する一方で、実用面の課題についても述べました。
「1人が話すような会見や講演では音がクリアに拾え、とても高い精度で認識されていると感じます。しかし複数人が話していて声が混ざっているような状況や、ノイズの大きい環境下ではやや認識率の低さを感じます。現在は効果の高い現場から導入を進めている段階です」
このシステムを字幕表示に活用できないかという声もあるそうですが、現状ではさまざまなハードルがあり、実用化はまだしばらく先の話になるだろうと山本 氏は語ります。
「音声認識をして映像上にリアルタイムに字幕を出したいという声もありますが、そもそも本システムは、もともと字幕を直接放送上に流すことを想定して開発していません。現段階では即時性と認識率、放送できない用語への対応が難しく、実現はまだ難しいでしょう」(山本 氏)。
独自学習モデルの開発が進めばより高い制度が実現可能
中京テレビ放送は Microsoft Azure によるクラウド ベースの AI による自動文字起こしシステムを構築し、このシステムをベースとしてさらなる発展を構想しています。山本 氏は、今後の展望について次のように話します。
「将来的には映像と音声を突き合わせることで話者分離を実現し、検索性を向上させたいと考えています。放送局は多数の番組を過去の資産として保持しています。こういったライブラリのメタデータ化を進めて検索性を向上させ、新規ビジネスに活用していければと思います。クラウド サービスのメリットはクラウド側でどんどん改良が進んでいくことにあると思います。マイクロソフトさんには日進月歩で技術の改善に努めてほしいですね」(山本 氏)。
木村 氏は、他システムとの連携を含め、Microsoft Azure の持つ可能性、将来性への期待を次のように述べました。
「今後、Microsoft Azure には独自学習モデルが出てくると思います。この段階で中京テレビ放送さんが持っている独自の辞書などを設定していけば、より変換の制度を上げていけるでしょう。たとえば名古屋弁などにも対応できるようになるかもしれませんね。また AD 連携を行うことで、認証の部分で映像素材にアクセスする制限を管理できるようになるため、将来的にはよりセキュリティを高められると思います」(木村 氏)。
先進テクノロジーをいち早く取り入れることで、業務の効率化、働き方改革への取り組みを進める中京テレビ放送。従業員が限られた時間でしっかりと結果を出せるよう、同社の挑戦は続きます。山本 氏は自社の環境を振り返り、情報システム部として改善を目指したい点を語りました。
「個人的には、会議の在り方を変えていきたいと思っています。現在は Skype for Business などを活用した遠隔会議に取り組んでいるのですが、これは今後も進めていくことになるでしょう。また、同時に議事録を取るためのシステムも検討していきたいと思います。情報システム部ではすでに Microsoft Teams を使ってやり取りを行ったり、Microsoft Planner を利用してタスク管理を行ったりしています。今後は Microsoft Teams を使ったコミュニケーションを社内に浸透させていきたいですね」(山本 氏)。
[PR]提供:日本マイクロソフト