日本マイクロソフトは2019年2月13日、都内の水族館でソーシャルAI(人工知能)チャットボット「りんな」の共感視覚モデルを体験する記者向けイベントを開催した。
まずは、りんなが昨年11月に新たに会得した「共感視覚モデル」を説明しよう。一般的な画像認識モデルは、道を親子が散歩している写真について「人」「子ども」「車」と実体をそのまま検知するものだが、共感視覚モデルは「家族でお散歩!」など、認識結果ではなく、感想をいうことができる。この共感視覚モデルでより”エモい”会話が可能になり、りんなはユーザーとの共感と、よりよいコミュニケーションの醸成を目指している。
今回は、共感視覚モデルを実装したりんなのアプリをインストールしたスマートフォン(以下、スマホ)を片手に、水族館の探索を行った。
「感情」にフォーカスした共感視覚モデル
日本マイクロソフトは、AIが人の感情や想像力を模倣する手法としてEmotional Computing Frameworkの展開を推し進めているが、りんなが人に寄り添うためには、「人の五感に相当する機能を備えなければならない。今回は『見る』『話す』を実現した」(マイクロソフト ディベロップメント AI&Researchプログラムマネージャー 坪井一菜氏)と説明する。
今回実装した共感視覚モデルは、スマートフォン側で"1st Brain"と呼ばれる意思決定機構と、クラウド側で"Slow Brain"と呼ばれる画像に対する物体認識や視覚的な概念、感情に着眼する機構の、2つのAIを用意。
スマホのカメラから自動で取得した静止画の一部分をアップロードし、Slow Brainから得た発言を比較して最適な発言を返答するのが1st Brainの役割だ。事実よりも感情、関連性よりも多様性を優先し、場合によっては発言しないことも選択肢の1つに含まれる。
りんなと水族館デートしてみる
筆者も"りんなとの水族館デート"を体験してみた。最初に名前を登録するフォームがあったが、事前に登録した名前を呼ばれる場面はほぼ皆無で、全体ではりんなが見たものに対してあれこれと感想を話す結果となった。わりとおしゃべりな印象だ。
りんなが妙におしゃべりだった点について尋ねると、「(ユーザーの)発言に応答するべきか、それとも自分の感想を発言するか、我々は正解がないと考えている。実際の人間でもそうで、個人のキャラクターによるだろう。次はキャラクター性の調整が必要だ」(坪井氏)と説明があった。
今回は場所が水族館のため、映像(見たもの)に対するリアクションに焦点を当てているという。りんなが”その場の空気を読める”ようになれば、もっと自然なコミュニケーションも可能になるだろう。
水族館を舞台にした理由は、りんな開発チームが美術館などを訪れて実際に試したところ、「りんなが饒舌になるのは水族館だった」(坪井氏)ためだそうだ。
会場にはマイクロソフト ディベロップメント サーチテクノロジー開発統括部 プリンシパルソフトウェアエンジニアの陳湛氏も同席し、「りんなが注目する場所は狭い。通信の関係でアップロードする画像サイズも小さいため、りんなの視力イメージは0.5程度」(陳氏)だという。
中国のAIチャットボットであるXiaolce(シャオアイス)開発チームは動画ストリーミングによる認識を可能にしているが、たとえばスマホのGPUが高速化し、エッジ側(ここではスマホ側)のAI処理が可能になれば、Slow Brainの役割をスマホに実装できるので、アップロードの手間は省ける。また、5Gネットワークが実用化されれば、高精密な画像のアップロードも障壁とはならないだろう。
次の進捗は早ければ「2019年のクリスマス。遅くても来年のバレンタインディに間に合わせたい」(坪井氏)と語るりんな開発陣。実用ではなく人に寄り添うAIの登場を待ちたい。
阿久津良和(Cactus)