今回、ご登場いただいたのはNTTメディアインテリジェンス研究所で対話AIの研究に携わっている東中竜一郎氏。前編では、同氏が取り組んできた対話AIプロジェクトや、対話研究の現状について伺った。続く後編では、近年注目の技術、そして今回のメインテーマでもある「人とAIが自由に会話できる日はいつ来るのか?」に迫る。
注目は、システムの「パーソナリティ」
大西氏:最近の対話研究業界では機械学習がはやっていますが、新技術で世界的にトレンドになっているものはありますか?
東中氏:今は「パーソナリティ」に注目が集まっています。ディープラーニングで毎回、同じ対話データを基に生成すると、誰ともつかないことを言ってしまうんです。パーソナリティの欠落です。
大西氏:その場合のパーソナリティとは、対話している人間側ではなく、システム側のパーソナリティということですか?
東中氏:そうです。パーソナリティがしっかりしていないと、矛盾したことを言ったりして、誰と話しているのかわからなくなってしまいます。これだと関係構築ができません。あと、まだ対話相手となる人間のパーソナリティまで配慮した会話をするのは難しいですね。好き嫌いくらいはある程度わかると思いますが、それ以上のことを理解するにはまだまだハードルがあります。Facebookなどは膨大なデータを持っているので、そういった分野にも挑戦しているようですが。
大西氏:世の中には、スマートスピーカーをはじめ対話できるプロダクトが急増しています。おかげで機械と対話することに抵抗のない人も増えてきました。スマートスピーカーと話すことが当たり前になればなるほど、システム側への期待は膨らみます。システムのパーソナリティが重要視されるのはそういう背景もあるのでしょうか。
東中氏:はい、それはそう思います。ですが、雑談などの用途でスマートスピーカーにパーソナリティを期待している人はまだ少ないと思いますね。スマートスピーカーが普段の会話を踏まえた提案をできるようになれば、「いつもおしゃべりしているこのシステムが言うのだから買おう」と思わせることができるかもしれません。
大西氏:そういう意味では、やはりタスク型指向の対話システムのほうがまだまだ主流ですよね。私はカジュアルな雑談型の対話システムがもっと広がるといいなと思っているのですが、メーカーさんに売り込んでも、「まずはタスク型指向から」と後回しにされることが多いです(笑)。雑談型の対話システムが広まるためにはどうすればいいのでしょう。
東中氏:ポイントは「代替」だと思います。例えば、FAQなんかは今システムに任せてちょうどいいレベルまで性能が上がっているので代替できているわけですが、雑談となるとまだ人間がやったほうがいい。人間と同じことができるようになれば広まっていくでしょう。
大西氏:つまり技術レベルがまだ足りていないと?
東中氏:ありていに言えばそういうことになります。と言っても、すでに代替できそうな分野もありますよ。高齢者向けの聞き役やカウンセリングなどは現状の対話レベルでも十分かもしれないので、検討が始まっています。人がやるのと同等のパフォーマンスが出せれば、コスト面で有利ですから。
研究者目線で”すごい”システムは?
大西氏:さまざまな対話システムが登場してきていますが、東中さんが特にすごいと思うものはありますか?
東中氏:正直、すごいと思うものはないですね。でも、自分が作ったものですごいと思ったことならありますよ(笑)。(自分もプロジェクトに加わった)石黒浩先生のロボットが理想的に雑談をしたときは「これはすごい」と思いました。
ただそれは理想的に動いたからであって、本当の意味でまともに動く「すごいシステム」ってないんです。例えば、失敗したときにリカバリー、つまり取り繕うことができません。長い内容も伝えられないし、対話能力はまだまだです。
ただ、一問一答型で言うなら、Alexaは結構いいなと思いました。寝ながらアラームをかけるといったことは、ほかでは代替できない機能ですよね。でもそれ以外のことはわざわざ音声認識機能を使ってやる必要性を感じませんが……。結局せめぎ合いで、Webが便利なら(使われるのは)Webになるし、音声が便利なら音声になるだけです。
でも、いろいろなモノが出てきているのは良いことだと思います。その分、キラーアプリが見つかる可能性は高まるし、いずれ良いモノが出て来る気がしています。
対話は”総合格闘技”
大西氏:いずれは雑談もできるようになると思いますか?
東中氏:できなくはないでしょう。ただ、現状はオープンドメインでのタスク指向型も十分とは言い難い。黒柳徹子さんをモデルにした「totto」に搭載した雑談技術では、相手の発言に対して深掘りする質問をディープラーニングで生成するわけですが、どういう順番で聞くのかとか、これはもう聞いたから聞かなくてもいいとか、任意の話題におけるそれらの関係性が定義できていないので、結果的に対話が破綻してしまう状況です。
大西氏:ディープラーニングだけでなく、違う技術や考え方が生まれないと難しいのでしょうか。
東中氏:ディープラーニングでいける可能性もあります。ただ、やっぱりディープラーニングはツールに過ぎないと思っています。
これまでは、発話の関係性をツリーで構造化して表現していました。でも考えてみれば、対話ってもっと曖昧でごちゃごちゃしているものですよね。私たちも別にそこまで論理的に話しているわけではありません。とはいえ、従来はそこを曖昧にしたままではシステムにはならなかったわけです。
大西氏:プログラムはそういう世界ですからね。
東中氏:そういう割り切らないといけなかった部分を、曖昧なままよくわからない空間に落とし込めるのがディープラーニングのいいところなんですが、それはある種の表現の仕方を得ただけです。いわば、ひらがな/カタカナ/漢字以外の曖昧な記号体系を手に入れただけであって、対話そのものをどう表すかはまた別の話だと思っています。
大西氏:ディープラーニングが万能ではない、と。
東中氏:ディープラーニングは便利なツールですが、対話データは機密性が高いですし、意味的なラベル付けが必要です。Twitterなどからは大量の対話データを拾えますが、そのままでは何にもならないんですよね。ある種の仮定を与えて、データを与えてあげないといけません。
大西氏:文脈が必要という意味では、表情や声色のような周辺情報も使えるといいですよね。
東中氏:その通りです。人間の会話はオーバーラップしたり、言い直しがあったりと、音声に特有の現象が多く見られます。特に”主導権”が難問ですね。人間は表情をうかがったり抑揚をつけたり、身振り手振りを使ったりしてそういうコミュニケーションを円滑にしているわけです。
大西氏:その辺りは、ほかの分野の研究者とも連携して進める必要がありそうですね。
東中氏:そうですね。私も常々、対話は”総合格闘技”だと言っています。1人では難しいことが多いので、皆で協力してやっていきたいですね。
人がAIと自由に話せる日はやって来る?
大西氏:最後にずばり伺います。人が満足できるレベルでAIと会話できる日は、いつか来るのでしょうか?
東中氏:まずは分野を限定して導入されていくでしょう。傾聴やインタビューといった分野にはスムーズに受け入れられると思いますし、そう遠くない未来、5~10年くらいで実現すると思います。
でも、そこから先、「AIが社会の一員として人と共に生きていく」という究極の目標を達成できるかと言うと、早晩には難しいですね。おそらく、(シンギュラリティが訪れると言われている)2045年でもまだできていないと思います。
大西氏:まだまだ先は長そうですね。でも、着実に進歩していることはわかりました。ありがとうございました!
After Interview
今回は、私の専門分野でもある対話技術のスペシャリスト、東中さんにインタビューさせていただきました。人のように話ができるロボットはいつ現れるのか、気になる方もいらっしゃるのではないでしょうか。東中さんに伺ったお話では特に、「ディープラーニングはツールであって結局対話そのものをどう表すかはまだ誰にもわかっていない」という言葉が印象的でした。AIという言葉がこれだけ叫ばれている今でも、対話はやはり非常に難しい分野なのだということを再認識しました。