NTTは1月28日、観客の歓声に埋もれているスポーツの競技音をクリアに抽出する音声処理ソフトウェア技術「ターゲットマイク技術」を開発したと発表した。

従来、スポーツ中継で競技音を集音するために、ガンマイクやパラボラマイクが使われている。ガンマイクは可搬性に優れており、サッカーや相撲、ゴルフの中継に使用されている。また、パラボラマイクは、パラボラ反射板により目的音のエネルギーを高めて集音することで、騒音に埋もれた中でもクリアに強調でき、野球のキャッチャーミットやバットの打撃音を集音するために使用されている。しかし、歓声や応援といった周囲の雑音を十分に抑圧できず、狙った音が埋もれてしまい、視聴者が聞きたい臨場感あふれる競技音を届けることが困難だった。

一方、マイク集音技術では、遠くの音をピンポイントで抽出する技術として、2014年4月にNTTが発表した「ズームアップマイク技術」がある。同技術は、複数のパラボラ反射板と約100個のマイクで構成された受音系を用いることで、約3度の鋭い指向性を達成し、狙った音をピンポイントで集音できる。しかし、装置サイズが大きく、スタジアムなどの施設へ常設するのが前提の技術だった。また、2014年9月に発表した「高騒音下対応マイク技術」は、複数のマイクを用いて観測した信号により、周囲雑音を抑圧する信号処理技術で、装置サイズが従来の放送集音とほぼ変わらないため、実フィールドでの利用を見込めるものとなっている。主に空間情報を用いて目的音や雑音の周波数スペクトルを推定しているため、角度幅60度にある目的音とその他の雑音を区別して集音することができる。しかし、サッカースタジアムのような場所では、全周囲から歓声や応援が到来するので、この処理技術を単に適用しただけでは、シュート音などをクリアに抽出することができなかった。

そこで今回、「ターゲットマイク技術」を開発した。一般的に用いられる複数のマイクで観測した音声信号に、空間情報だけでは取り除けなかった雑音(歓声や応援)と競技音(サッカーではシュート音など)を区別するためのソフトウェア技術を適用することで、100dB程度の高騒音下でも競技音をクリアに集音できるようにした。具体的には、音源の到来方向の空間情報と音源の時間的性質の両方を活用することで、2本程度のマイクロホンでも、狙った音をクリアに抽出することができる。例えば、サッカーではシュート音に立ち上がりが鋭いという特徴があるためその特性を利用している。これにより、従来以上にスポーツのダイナミックな競技音を視聴者に届けることが可能になった。なお、同技術の集音範囲は約10~20mで、マイクをサッカーのゴール裏に設置した場合、ペナルティエリアをカバーできる。また、ソフトウェア処理による遅延は15sec程度であり、30fpsの動画なら1フレームもずれないという。

(左)従来のガンマイクと、(右)「ターゲットマイク技術」用マイク。風防で隠れているが、中には一般的に使用されるガンマイクが2本セットされている。競技によってチューニングが必要で、使用するマイクの本数や配置も変わる

2014年9月に発表した「高騒音下マイク技術」では、空間情報を用いて目的音や雑音の周波数スペクトルを推定しているため、角度幅60度にある目的音とその他の雑音を区別して集音することができる。「高騒音下マイク技術」に加えて、今回の「ターゲットマイク技術」を用いると、サッカーではキック音の鋭い立ち上がりの特性を利用してさらに分離でき、キック音のみの抽出が可能となる

さらに、2014年7月には、NHKとの共同実験を実施し、実フィールドで迫力ある競技音を収録できることを確認した。サッカーではキック音や選手の叫び声を、大相撲では張り手やぶつかり音を、ゴルフではティーショットやパット音を強調した。中でも、サッカーは応援による騒音レベルが大きく、音をクリアにして放送品質を維持することが難しかったという。

なお、商用化は2015年度夏頃を予定している。その後も、音源の性質を活用した処理の高度化による性能向上を図っていく。そして、2020年の東京オリンピックまでに技術改良を進めていき、さまざまなパートナーとのコラボレーションを通じ、スポーツ観戦において、より臨場感ある競技音の体験を世界中の人々に提供できるように取り組むとコメントしている。

シュート音を「ターゲットマイク技術」で抽出するデモ。ゴール奥にマイクが設置されている

(上)通常のガンマイクのスペクトルと、(下)ターゲットマイク技術によるスペクトル

(上)通常のガンマイクの波形と、(下)ターゲットマイク技術による波形