NTTは、約20m離れた場所で話す人々の声から、指定した人の声のみをクリアに収音可能な「ズームアップマイク」を開発したと発表した。
これまで、遠くの音を収音する技術には、ガンマイクやパラボラマイクなどがあったが、これらは受音時のエネルギーが小さいことや空間分解能が低いため、ガンマイクでは約3m、パラボラマイクでは約6m程度までの音しか拾えなかったという。
今回開発した「ズームアップマイク」は、約100本のマイクロホンと、12個のパラボラアンテナのような凹型反射板から構成され(横4m×縦1.5m×奥行1m)、音を反射させて遠くの音を収音可能とする反射板の前に、約100本のマイクロホンを設置。これら100本のマイクが収音した音から、マイクロホン間に生じる位相/振幅差を利用し、約20mの狙った音だけをクリアに収音することを可能とする。
空間分解度は約3度で、20m離れた位置で隣あって話している人を声を分離して収音する。ズームアップマイクにはカメラも付いており、画面でカーソルを合わせることで、任意の位置の音を収音可能だ。
NTTメディアインテリジェンス研究所の丹羽健太氏によれば、今回開発技術のポイントは「受音系設計技術」と「フィルタ生成技術」だという。
「受音系設計技術」は、 構築した原理に則って、凹型反射板の前に、100本程度のマイクロホンを準最適に配置するための技術。開発した受音系では、それぞれのマイクロホンができるだけ異なる性質を持つ信号を受音することで、狙った音源とその他の雑音を区別するための手掛かりを得られるようになった。受音した100個の信号をパソコンに取り込み、リアルタイムで信号処理することで受聴するための信号を出力する。
一方、「フィルタ生成技術」は、ズームアップマイク技術で採用した信号処理技術の特徴として、ユーザーが選択した任意の場所にある音源を収音できるようにする。あらかじめ、無響室内で収録した計測データから膨大なフィルタ群(約2300パターン)を生成し、パソコンのメモリ内に展開。ユーザーが選択した任意の場所に対応したフィルタを観測信号に瞬時に適用することで、狙った音を強調して収音できるようになった。
「ズームアップマイク」の利用用途としては、スタジアムで選手が話している声を拾うことや、大人数のテレビ会議で一人一人の発言をクリアに聞くことを想定している。丹羽氏によれば、現在の設備でも30m程度までの収音は可能だが、実用には50m程度の収音性能が必要で、NTTでは、2年後を目安として実現を目指す。
ただ、実用面を考えると小型のものが必要とされるため、NTTでは、小型で汎用性のあるマイク素子(2~3本)と今回開発した信号処理技術を組み合わせることで、騒音や雑音のある環境下でも、クリアに狙った場所の音声を収音できる小型収音装置(マイク)やソリューションを、NTTグループの事業会社を通じて、開発・販売していくという。例としては、雑音の多い車でのカーナビ操作や、工場内での機械騒音下でのハンズフリー会話などへの活用が期待できるという。