Microsoftの「Video Indexer」をご存じだろうか。Azure Cognitive Servicesの各機能を用いた同サービスは、動画に対して、テキスト化や顔認識、文字認識、主要なフレーム抽出、感情分析、翻訳といった機能を備える。2017年5月にプレビュー版を発表し、2018年9月にGA(一般提供)を開始。その後も動画からトピックを推論するマルチモーダルトピック推論など、少しずつ機能強化を図ってきた。

  • Windows Weekly Report

    Video Indexerのサンプル動画を開いてみると、分析結果などが現れる

筆者もGAを迎えた時点で試してみた。目的は取材内容のテキスト書き起こしである。ICレコーダーで録音したMP3ファイルをアップロードし、分析を経てテキストファイルをダウンロードしてみたが、誤変換や取りこぼしが多く使い物にならなかった。先日、SNSで日本マイクロソフトの某氏が「日本上陸」と投稿した内容を見ると、Video Indexerアカウントのリージョンに東日本が加わったという。

  • Windows Weekly Report

    Video Indexerアカウントのリージョンとして「Japan East(東日本)」が確認できる

それまでVideo Indexerの存在を忘れていたが、ちょうどテープ起こしが必要だったMP3ファイルが手元にあったため、再び試したところ、1年で大きく進歩したことを確認した。もちろん誤変換も多く、そのまま記事の原稿などに使うことはできないものの、取材時に撮影した動画を見ながら短期間で作業を終えることができた。その際の取材対象者は2名で、発言者によってテキスト化の精度が異なったが、ツールを使って耳に集中するより負担は軽かった。

  • Windows Weekly Report

    アップロードしたMP3ファイルの分析を終えると、トランスクリプト(筆記録)をダウンロードできる

下図に示したのはテキスト化した内容を編集できるVideo Indexerエディターで、「では」が「テーマ」になり、「ソリューション」が「保留ション」になっている。1年前に試したときに多発した似たような誤変換と比べて、今回試した新版は誤変換がやや減ったようだ。

Video Indexerには、話者を列挙する機能が備わっているのだが、筆者の発言と相手の発言が混合している点は少々残念。周辺の雑音やホワイトノイズなど録音状態によって精度は左右されるとはいえ、ゼロからテキスト起こしする手間を考えれば十二分に使えるサービスである。

  • Windows Weekly Report

    こちらはVideo Indexerエディター。取材内容の大半にモザイク処理している点はご容赦を

本来、動画から洞察を得ることを目的とするVideo Indexerだが、Webサイトでの利用は最大10時間まで無料。Video Indexer APIを利用するAPIユーザーは、最大40時間まで無料だ。それを超えた場合は、基本的に分単位の従量課金制なので(利用形態によって異なる)、それほど財布も痛まないだろう。ひとまず筆者は次回のインタビュー取材にもVideo Indexerを使うことにした。

阿久津良和(Cactus)