米OpenAIは9月24日(現地時間)、「高度な音声モード」(Advanced Voice Mode)の提供範囲を拡大し、ChatGPTの有料プラン(Plus、Team)のユーザーへの展開を開始した(EU、英国、スイス、アイスランド、ノルウェー、リヒテンシュタインを除く)。

音声モードはChatGPTと音声でやりとりするモードで、「高度な音声モード」は、今年5月にOpenAIがマルチモーダルAIモデル「GPT-4o」を発表した際にライブデモを公開した進化版だ。GPT-4oの高速な音声反応により、テンポの良い会話が可能となり、人と話しているようなスムーズな対話が注目を集めた。当初は6月に提供が開始される予定であったが、さらなる改良のために展開が延期され、7月にアルファ版の提供が始まったものの一部ユーザーに利用が限定されていた。

すべての対象ユーザーへの展開には約1週間を要する見通しだ。使用できるようになると、ChatGPTアプリに通知が表示される。音声モードでは会話中にChatGPTの画面の中央に白い円が表示されるが、高度な音声モードではそれが青い円のアニメーションとなる。

広範囲への提供開始とともに、いくつかの機能追加も行われた。

まず、新たに、Arbor(男性)、Maple(女性)、Sol(女性)、Spruce(男性)、Vale(女性)の5つの声が追加され、合計9つの声を選べるようになった。

そして、「カスタム指示」と「メモリ」を使用できるようになった。これらはChatGPTとのやりとりを自然かつ効率的にするのに役立つ機能である。

「カスタム指示」は、ChatGPTの応答スタイルや会話の進め方をユーザー向けにカスタマイズできる機能で、設定画面で指示を入力する。たとえば、「ゆっくり、フレンドリーに話して」というように話し方や口調を指示する。また、自身の情報をChatGPTに伝えておくことで、コンテキストに沿った会話が可能になる。たとえば、住んでいる場所をあらかじめ伝えておくと、「明日の天気は?」と聞くだけで、ChatGPTはユーザーの住む地域の天気を調べてくれる。一方、「メモリ」は、ユーザーとの会話内容や指示を記憶し、それを対話に反映させる機能である。たとえば、ユーザーと特定のテーマやトピックについて話す際に、以前の会話を参照し、ユーザーの好みに基づいた情報を提供することができる。

音声機能についても、アルファ版リリース以降、会話のスピードやなめらかさ、状況の判断、一部外国語のアクセントの理解などが向上したと報告している。