機械学習を採用する企業が増加

機械学習(ML)を試験導入する企業は増え続けており、その採用率も上がっています。McKinseyの調査によると、39%の企業がすでに何らかの形式のMLをビジネスに導入しています。

MLの採用はまだ初期段階ですが、効率性の向上、顧客行動の予測、将来を見据えたビジネスインテリジェンスなどのメリットが見込まれ、あらゆる企業にとって魅力的なテクノロジと言えます。

業務用AVB(オーディオ/ビデオおよび放送機器)市場も例外ではありません。この分野の企業ではすでに、MLによってコスト削減だけでなく新しい利用モデルや収益源も生まれています。

具体的に、業務用AVB企業によるMLの応用例を4つ紹介します。

1. 関心領域(ROI)のエンコード

大容量の動画ファイルやUHDコンテンツのストリーミングやストレージはコストがかさみやすいものです。関心領域(ROI:Region of Interest)のエンコードによってコンテンツの全体的なビットレートを削減し、自然と目を引く領域(特に顔や人物)に最高の動画品質(VQ)を適用する一方、重要性の低い領域(背景など)ではVQを下げれば、コストの問題を軽減できます。

普通に視聴したときの見た目上の動画品質を維持したまま、エンコーダーの出力ビットレートを、たとえば5Mbpsから1.5Mbpsに削減できます。この70%のビットレート削減は、そのまま70%のストリーミングコスト削減に値します。視聴者10,000人に対する標準的なストリームの場合、1時間あたり700ドル超も削減できることになります。

  • ROIのエンコード

メディアストレージのコストにも同じことが言えます。クラウドで2TBの高スループットドライブを利用している場合、1カ月あたりのコストは約1,000ドルになります。ROIを利用してエンコーダーの出力ビットレートを70%削減すれば、よりサイズが小さく低価格のドライブを利用するか、同じドライブに保存する動画コンテンツを増やすことができます。

ROIは、放送局などの調整室向けアプリケーションで最重要領域の詳細データを保存する際にも利用できます。たとえば、問題が発生し、それを大型のビデオウォールでモニターしている場合は、事後調査で詳細を正確に把握でき、そこから誤りを学習して対応策を改善するためのトレーニングに活用できることが重要です。つまり、ROIエンコードに静的座標を、顔や人物にはMLベースの動的座標を使用して、テキストオーバーレイ(時刻表示など)の領域のVQを高く維持します。

2. インテリジェント・デジタル・サイネージ

マーケティング担当者にとって、ターゲットを絞った広告を出すことは非常に重要です。さまざまなMLモデルを用いてデジタルサイネージの視聴者を分析すれば、年齢や性別などのメトリクスに基づいてより関連性の高いターゲットを絞った広告を出すことができます。

これによりサイネージプロバイダーは、より効果の高い広告や広告演出に費用をかけたい広告主にとって魅力的な存在になります。さらには、サービスの利用向上につながる重要なデータ(視聴者の関心など)を生成し、収益につながるフィードバックを広告主のメーカーに提供することも可能です。

また、視聴者には関連性の高い、よりパーソナライズ化された広告、たとえば視聴者が興味を持ちそうな商品やサービスの広告で、全体的なショッピングエクスペリエンスの向上をもたらすような広告が表示されます。代替MLモデルをインタラクティブキオスクに導入すれば、従来のタッチ画面に代わってジェスチャーコントロールで次の広告に移動したり、商品を注文したりできるようになります。ファストフードの注文時に利用されているタッチ画面の衛生状態の悪さはマスコミでも大きく取り上げられているため、物理的に接触するのではなくジェスチャーに切り替えると、顧客にとってはるかに清潔で安全なサービスを提供できます。

3. オブジェクトトラッキングとウィンドウイング

MLを利用した顔認識の応用例はほかにもあります。たとえば地方の大学で、ある芸術家の作品に関するパネル ディスカッションをライブ配信するとします。低予算のイベントでオーディエンスも限られるため、制作コストをできるだけ抑える必要があります。このような場合は通常、1台のカメラで全体を撮影し、状況に応じてズームやパンを行います。

MLを利用すると、4Kの固定カメラで全体を捉えながらも、低解像度のHDウィンドウに各パネリストの様子を自動的に出力し、会話を通して追跡することができます。つまり、1台の4Kカメラから、4つの異なるショット(広角のショットと3つのクローズアップ)を出力し、ライブ配信中に切り替えられます。これならば視覚効果が高まる上に、カメラ機材を増やす必要がありません。カメラマンはビデオミキサーになって、配信するフレームを選択するだけです。

さまざまなMLトラッキングモデルを使用すれば、この手法をスポーツ中継などの業務用放送アプリケーションに応用したり、コラボレーション環境に応用して複数のビデオ会議出席者を自動追跡したりできます。

4. 音声認識

MLの別の応用例に目を向けると、自然言語処理(NLP)モデルを利用した音声認識も可能です。これはすでに家庭でも見受けられます。Google Alexaなどのスマートデバイスは、コマンドに応答して情報やメディアを提供したり、家の中にあるさまざまなものを制御したりできます。デバイスに組み込まれたNLPを利用すれば、同じ機能を業務用のメディアに応用して、機材をシンプルな手順で素早くセットアップできます。クラウド接続は不要で、関連のサブスクリプションサービスを利用しなくても同じタスクを実行できます。

さらに、音声テキスト変換アルゴリズムと要約モデルを利用して、議事録を自動的に文字に起こすこともできます。また、字幕をほぼリアルタイムで任意の言語に翻訳することも可能です。この機能もビデオ会議アプリケーションに応用したり、番組放送や映画で従来から利用されているクローズドキャプションシステムに応用したりできます。

エッジでのAIプロセッシングの実現方法

ザイリンクスが提供する「Zynq UltraScale+ MPSoC プラットフォーム」を始めとするデバイスでこれらのML機能を活用することで、AIエッジプロセッシングを実現することができます。

エッジ側で直接処理し、ネットワーク接続の必要がなくなると、低レイテンシというメリットがあるだけでなく、クラウドでの識別メトリクスのプライバシーや保存に関するさまざまな問題の解消にも役立つ可能性があります。これらのML機能をザイリンクスのこれらのプラットフォームに組み込むと、企業はアナリティクスを収益化し、ワークフローの効率性やユーザビリティを向上できるようになります。最終的には、これらの統合型ML機能によって企業がイノベーションを促進し、他社との差別化を図り、市場化の時間を短縮することも可能になります。

草野多恵

著者プロフィール

ロバート・グリーン(Robert Green)
Xilinx
業務用AVB(オーディオ/ビデオおよび放送機器)シニアマネージャー

プログラマブルロジック業界で25年、ザイリンクスでは過去20年間、業務用AVBおよびコンシューマの垂直市場に従事。現在は、業務用オーディオ、AV over IP、ビデオ処理など、さまざまなオーディオおよびビデオ技術に関するザイリンクスのマーケティングを支援し、EMEA 地域における主要な顧客のサポートしている。

テキサス・インスツルメンツ社のデザイン・エンジニアとしてキャリアをスタート。同社にて民生用TVセット用のNICAMステレオ・オーディオASICを開発。その後、英国の代理店Macro ElectronicsでAMD/Vantis、Philips、Motorola、AT&T/Lucentのプログラマブルデバイスをサポートするフィールドアプリケーションエンジニア(FAE)を務めた後、ザイリンクスに入社。

リバプール・ジョンムーア大学で電気電子工学のBEng(Hons)学位を取得。