人材確保が難しくなり、また、人件費が高騰して、コンタクトセンターの「集約することで、コストを削減する」という意味での効果が薄れてきました。そこに救世主としてボイスボットが登場したと受け止められています。ただし、導入すればすべて解決という魔法の杖ではありません。

第3回となる本稿では、ボイスボットを導入することでどのようなメリットがあるのか、また導入時の注意点について紹介します。

ボイスボットの仕組みと活用シーン

コンタクトセンターに電話をかけると、自動音声で対話が始まるものとして、IVR(電話自動応答)があります。IVRとは、「新規契約の方は[1]を、お支払い方法の変更は[2]を、……」といったように、コールリーズンを振り分ける仕組みで、ボイスボットが登場する以前から利用されています。

これに対して、ユーザーが話した内容に、AIがリアルタイムで会話を進めていくものをボイスボットといいます。混同している方がいるかもしれませんが、まったく別物だと思ってください。

第2回でも説明しましたが、ボイスボットは以下の3つの技術の組み合わせです。

(1)音声認識

人が話した音声データを、AIがテキストに変換する

(2)自然言語処理

テキスト化した文章をAIが自然言語処理をして、適切な回答や必要な事項を確認し、会話を進める

(3)音声合成

AIが抽出したテキストを音声で発話させる

AIがリアルタイムで会話を成立させるものとしては、先に普及したのがチャットボットです。これは、テキスト入力した内容を自然言語処理し、テキストで回答を返すもので、Webサイトやアプリに実装されるケースもあります。ボイスボットはコンタクトセンターや、電話などで直接、音声で会話ができるという点が、チャットボットとの違いです。

本稿執筆時点で、ボイスボットの活用に一番向いているのは予約受付など等の手続きです。レストラン予約や家電の修理依頼、クレジットカードなどの各種手続き、宅配の集荷依頼などが一例として挙げられます。複雑な問い合わせではなく、シンプルな問い合わせ内容はハードルも低く、導入する企業も増えてきています。しかしながら、複雑な問合せやコンタクトセンターのすべての問い合わせに、ボイスボットが利用されているケースはほぼないように思われます。

ボイスボット導入のメリット

ボイスボット導入のメリットとしては、「コンタクトセンターの業務効率化」「機会損失回避への対策」「顧客満足度の向上」が考えられます。

コンタクトセンターの業務効率化

まず、ボイスボットによって、オペレーターが対応する電話の件数を減らすことができます。本稿執筆時点では、完全にボイスボットだけで解決できるのは、良くて7割程度と言われており、オペレーターの負担は、AIが解決した分、軽減されます。そのため、人材確保やコストの削減に貢献できます。

機会損失回避への対策

電話が集中してつながらないケースや営業時間外の問い合わせなど、すべて人で対応すると、効率が悪くコストもかさみます。ボイスボットであれば24時間365日問い合わせを受けることができるので、ユーザーがいつでも利用でき、機会損失の回避にもつながります。

顧客満足度の向上

コンタクトセンターに電話してもなかなかつながらないと、顧客にとっても大きなストレスになります。ボイスボットを導入することで、この「つながらない」という不満を解消できます。

さらにIVRの場合は、つながった後で自分の聞きたい内容が出てくるまで音声を聞いて待たなければならず、実はこれもユーザーにストレスを与える要因です。コールリーズンが多様化していくとIVRの階層も深くなり、ユーザーにとってはむしろイライラする原因になるのです。

これに対して、自分は何を聞きたいのかを顧客側から発話できることが、ボイスボットのメリットになります。

ボイスボットの課題

ボイスボットはコンタクトセンターにとって多くのメリットがあり、人手不足時代の救世主と期待されて広まり始めました。しかし、実際利用してみると、ボイスボットにさまざまな課題があることもわかってきました。主な課題とは、以下になります。

  • 複雑な質問に弱い、対応できない
  • 音声が認識されない、誤認識される
  • 常に精度の改善(データのチューニングやメンテナンス)が必要
  • 技術的に対応できないケースが意外と多い

ボイスボットがよく利用されるシーンとして、レストランの予約や家電の修理予約などがありますが、それぞれ、顧客から事業者側へ伝えてもらう情報は以下のように数多くあります。

  • レストラン予約:名前、電話番号、日時、店舗名、人数など
  • 修理予約:氏名、住所、電話番号、家電の製品名など

オペレーターと話している時は、順不同で一度に複数の情報を伝えても聞き取って、言い忘れている項目を聞き返してもらうこともできます。また、「メニューはお決まりですか」と聞かれた時に、「クレジットカードは使えますか」と異なったコンテクストで聞き返しても、適切な回答をもらえるでしょう。

しかしAIでは、こういったイレギュラーな質問に対応するのは困難です。「質問と回答を一つずつ進めていく」というのが一般的なボイスボットの仕組みです

このため、結局IVRと同じように、DTMF(Dual-Tone Multi-Frequency/電話のトーンキーで選択するもの)を利用するケースや「はい/いいえ」で答えられる質問のみでシナリオを作るようにリクエストされることもあります。

コンタクトセンターは、企業の印象を決めると言っても過言ではない重要な顧客接点です。このため、質問の仕方や発話の制限が多くなり、ユーザーのストレスになることは、導入企業側としては許容できません。このようなCXの視点は、テクノロジーの専門家であるAIベンダーにはカバーしきれなかったり、専門知識が十分でなかったりすることが多くあります。

したがって、導入企業側の「やりたいこと」とベンダー側の「できること」にギャップが生じて、導入企業側のボイスボットに対する不満につながるとも言えます。

AIの精度は勝手には上がらない

2022年に生成AIが話題になり、対話AIの可能性は大きくなりました。それもあってかAIは自動的に学習し、何もしなくても精度が上がっていくと思われる方も少なくありません。しかし多くのボイスボットでは、そのようなことはありません。よって、現状ではAIが顧客の言葉を正しく認識して、適切な会話をするための、継続的な精度改善が必要です。

改善には、「学習」と「メンテナンス」があります。

学習とはAIに教師データと呼ばれる、正しいデータを学習させることですが、音声認識の学習には、音声データと、正解であるテキストデータの2つが必要になります。つまり、テキストだけのチャットボットよりもボイスボットのほうが、精度向上に時間がかかります。数百時間から数千時間の会話を聞きながら、テキストにしていくという作業が発生します。

また、日本語は固有名詞が非常に多様で複雑な難しい言語です。筆者も当初は、「日本のAIなのに、日本の地名や人名が認識できないとは、どういうことだろう」と思ったものです。しかし、確かに日本語は外国語に比べて珍しい名前や特殊な読み方がたくさんあるため手間がかかり、ボイスボット導入は非常に高額になってしまう傾向にあります。

一方メンテナンスは、自然言語処理に関わるものです。わかりやすいのは、業界用語や企業ごとの独自用語をAIに学習させる場合でしょう。略語や通称などもあり、この用語を顧客も使うことがあります。これらは正式名称と同等の意味と学習させる必要があります。

AIベンダーは、「AIは子どもと一緒だから徐々に育てなければいけない」とよく言います。当時、筆者はある程度AIベンダーが育ててくれるのかと想像していました。ベンダーが実施する学習でほとんどが認識可能な精度になるとイメージしていたのですが、現実は全く異なり、メンテナンスで対応する割合のほうが、学習させる割合より大きいのです。

筆者がボイスボットを導入したときは、自社内にメンテナンス用のAI専門チームを作りました。そして毎日モニタリングして、AIが誤った認識や回答をしている部分をメンテナンスするという作業を実施しました。その結果、ボイスボットの完了率は85%以上になりましたが、そこまで行きつくまでに1年程度かかったという経験があります。

筆者は、AIベンダーはAIの技術だけではなく、導入する企業やその業界、その顧客についても熟知していなければならないと考えます。ボイスボットを導入する際は、企業もそこを加味してAIベンダーを選定することがボイスボットの導入を成功に導く鍵となると考えます。