今年もHRP-4Cは歌うぞ! しかも上手になった

産業技術総合研究所(産総研)のブースで目立っていたのは女性型ヒューマノイドロボットの「HRP-4C」。今年も歌うデモを披露しており、大勢の来場者が立ち止まって見入っていた。

動画
まずはデモを見て欲しい。なんとこれが合成音声なのだ!(wmv形式 5.95MB 1分27秒)

昨年は初音ミクのコスプレまでしていたHRP-4Cであるが(昨年はヤマハのブースだった)、今年の格好はノーマル。しかし、産総研が開発した歌声の自動生成技術「VocaListener」(ボーカリスナー)と、表情の自動生成技術「VocaWatcher」(ボーカウォッチャー)を初めて搭載しており、より人間に近い自然な歌声と表情を実現している。

昨年のデモでは首から下は微動だにしなかったHRP-4Cだが、今年は動いている

人間が歌っているところをお手本にして、動作パターンを自動で生成する

VocaListener自体は2008年に発表された技術であるが、今回初めてロボットに実装した。歌声の合成そのものはVOCALOID2などを使用しているが、人間の歌声をお手本にして、そこから声の高さ・大きさなどのパラメータを自動推定。従来、手作業で入力していたのに比べ、格段に高い精度での再現が可能となった。また息継ぎの音も検出して、それを真似ることで、より人間らしい歌声になっている。

一方のVocaWatcherは今回が初公開。こちらも、人間が歌っているときの顔の表情をお手本にして、口と目の開き具合、顔の向き、視線などのパラメータを自動推定、それに最も近くなるように、ロボットの各モーターを制御する。今回のデモでは、頭部のみがVocaWatcherによる自動生成の動作であるのに対して、首から下は従来同様の手動設定となっており、その違いも見ることができる。

昨年と今年のデモの比較。従来の手作業をかなりの部分自動化した

今年のデモの楽曲。お手本も歌声もいろいろ用意されている

手動で各パラメータを調整していた従来に比べ、より自然な歌声と表情を実現できるのに加えて、人間をお手本に真似をするだけなので、手間もかからない。エンターテイメント産業などへの応用が期待されている。

なんとポスターから音が! データも伝送できるぞ

別にロボットではないのだが、VOCALOID繋がり(?)ということで、ヤマハが出展していた音の出るポスター「TLF-SP(Thin-Light-Flexible Speaker)」もここで紹介したい。

動画
スピーカーらしきものは見えないが、なぜか音がするポスター(wmv形式 3.28MB 24秒)

一見すると普通のポスターのようだが、じつはこの全面が薄型の静電スピーカーになっており、前に立つと結構なボリュームで音が聞こえてくるというもの。通常の静電スピーカーに比べ電圧は低くしており、そのため低音が出にくいという問題もあるものの、指向性が非常に高く、5~60m先でも聞くことができるという。

ヤマハのブース。今年はヤマハ発動機とのコラボ企画を行っていた

TLF-SPの特徴(上段)。通常のスピーカ(下段)と違い、音が拡散しにくい

また、デジタル情報を人間には聞こえない音に変調して伝送する「インフォサウンド」技術も実装し、iPhoneを使って画像をダウンロードする「サウンドスタンプラリー」を実施していた(毎日先着100名にキャラクターシールをプレゼント)。インフォサウンドの伝送レートは最大約80bps。10m以上離れていてもデータを伝送することができるという。

ホール3と4の間のスペースに、このポスターがずらり。キャラは全て違う

その導かれた先には、電動バイク・電動アシスト自転車の試乗会の会場がある

同社はTLF-SPとインフォサウンドを組み合わせた新しい情報提供媒体を「サウンドサイネージ(音響看板)」として提唱、今秋から実証実験を開始する。その結果を見て事業化に繋げる構えだ。