「ロボットや機械との、人間らしい自然な対話を可能にする」、そんな可能性を秘めた自然応答技術「HEARTalk(ハートーク)」をヤマハが開発した。本稿では、発表と同日(11日)に行われた記者発表会の模様をお届けする。

「HEARTalk」は人間の呼びかけの「韻律」をリアルタイムに解析し、応答に適した「韻律」を導き出す技術。主として既製の音声対話システムへの組み込み用途を想定したもので、同日より技術の一部を利用できるソフトウェアとハードウェアのライセンス提供を開始する。

ライセンス提供されるのは、「HEARTalk」を「相槌」に特化させたもの。人間の問いかけ音声の入力に合わせて、自然な韻律で「はい」、「うん」といった相槌音声を返す。人間の発話内容の解析はせず韻律の解析処理のみで動作するため、少ない処理量で軽快に動作するという。ソフトウェアライセンスは、主に音声対話システムを既に自社開発されている法人向けとしており、ハードウェアライセンスは主に玩具向けを想定している。

機械音声の「不自然さ」の解消を目指す

ヤマハ 技術本部 研究開発統括部 新規事業開発部 VAグループ企画担当次長・松原弘明氏

ハードウェアライセンスに含まれる基板モジュール。このほか、参考回路図、参考サンプルプログラムも提供される

同社の松原弘明氏は発表会の冒頭にて、近年普及が進んでいるロボットや各種機器に搭載された音声対話システムの返答には「誰が聞いても機械の声と分かる不自然さ」があると指摘。この「不自然さ」は、人間同士の会話では自然と相手に合わせている「韻律」(声の強弱や長短、高低、間、抑揚など)の調整が行われておらず、あらゆる発話に対して同じように返事をしているため起こるものだという。

「HEARTalk」はその不自然さを解消するために機械応答に韻律を加え、自然なやりとりを実現する技術だという。発表会で行われたデモンストレーションおよびデモ動画ではすべて日本語でのやりとりにおける利用が示されているが、韻律は言語を超えて共通している部分も多いため、その他の言語にも対応できるという。ちなみに、音声にまつわる技術ではあるが、同社の歌声合成技術「VOCALOID (ボーカロイド)」は使われていない。

応答の音階を楽譜で表示し、韻律によって自然に対話できる仕組みを説明。松原氏みずからキーボードする場面もあった

スマホ、ロボット、玩具などでの利用を見込む

まずは「機械との気持ちよい対話」を

また、「HEARTalk」は他企業との共同研究を発表以前より行っており、会見の場にてフュートレックおよびNTTアイティとの協業を同時に発表した。

音声認識と同時に、「HEARTalk」による韻律の生成が行われる

ソフト・ハードともに販売はフュートレックがヤマハからのライセンス提供を受けて行う

フュートレックの音声認識システム「vGate」と音声対話技術「vGate Talk2Me」、そしてNTTアイティの音声合成システム「FutureVoice Crayon」を活用し、適切な言葉を用いた自然な韻律の返答を可能とする音声対話システムの実現を目標とする。今後の予定として、2016年夏頃にトライアルを開始し、2016年内の商品化を目指していく。

閉場後、ヤマハ・松原氏に「HEARTalk」開発の現時点でのゴールを聞いた。

「まずは気持ちよく機械と対話できること、さらには機械だと意識しないで対話できるようにすることです」

現実的なゴールとして上記の回答を得たが、その次の段階には、悲しんでいる人に対して慰めるような返答を行うような「感情に対してのアプローチ」が考えられるとも言及。しかし、それには韻律の調整のみならずAI(人工知能)など他の技術も必要となってくるとして、具体的な目標ではなく、あくまでも同技術の可能性を元にした未来予想だという見解を示した。