日本電信電話(NTT)は5月30日、車から見える移り変わる景色を話題として、パートナーのように知識応答や共感応答をする対話型のAI(Artificial Intelligence:人工知能)を実現したと発表した。

同社は今回、大規模なWeb対話データや高品質対話データと、深層学習技術であるTransformer Encoder-decoderを組み合わせることで対話モデルを構築。構築した対話モデルはルールや係り受け関係などの統計情報に基づく従来のモデルとは異なり、複雑な文脈の理解や自然な発話の生成が可能だという。

また、同社は検証や評価の目的に限定して対話モデルおよび対話データを無償公開しており、構築したモデルの幅広いフィールドでの効率的な検証を進めるとともに、日本語対話AI研究の地位向上も目指している。

  • 今回実現された対話の例

    今回実現された対話の例

従来の対話AIモデルはテキスト情報のみを入力として扱ってるため、テキストに閉じた対話では非常に自然な雑談を実現できるが、実際の周辺の状況に即した対話は困難だ。特に、人とドライブが可能な対話AIを実現するためには、自己位置周辺の景色画像や外部のスポット情報を処理しながら対話に反映させる必要がある。

今回同社はこの課題に対し、画像内の物体の情報と自己位置周辺のスポット情報を大規模対話モデルに導入する技術を開発した。画像内に写っている物体群を物体検出技術により抜き出し、それぞれを大規模対話モデルで扱える数値情報(埋め込みベクトル)に変換して入力する。

スポット情報については自己位置近傍のレストランなどのスポットに関する情報をテキスト形式で取り出し、対話の文脈と同様の形式で入力する。大規模対話モデルはこれらの入力情報に基づいた発話を出力可能となる。このモデルに対し、運転画像を見ながらガイド役とドライバー役の間で行った対話を用いて学習することで、自己位置周辺の景色画像やスポット情報に基づく発話生成が実現できたとしている。

  • 画像やスポット情報の入力が可能な対話モデル

    画像やスポット情報の入力が可能な対話モデル

ドライブ中の自己位置は逐次変化するため、対話AIは人がどの時点の画像やスポット情報を話題としているのかを理解しつつ、新規に入力された情報にも触れながら対話する必要がある。今回の成果では、対話文脈からの話題画像推定と、逐次的に入力される画像に対する発話の話題強度の推定技術を開発し、それらを適切にタイミング制御に組み込むことでこうした課題を解決している。

ユーザーの発話にも応じながら、ユーザーが興味を惹かれるであろう情報を適切なタイミングで提供する新感覚のドライビング・パートナーとなる対話AIの足掛けとして期待される。

  • 対話AI全体の構成図

    対話AI全体の構成図