ChatGPTが画像と音声に対応、”見る、聞く、話す”で多様な対話が可能に

米OpenAIは9月25日（現地時間）、生成AIチャット「ChatGPT」に音声認識および画像認識機能を追加することを発表した。

同社は3月に大規模言語モデル（LLM）の新版「GPT-4」を発表し、同バージョンの大きな強化点の1つが単一モデルで複数の種類のデータを処理できる「マルチモーダル」だった。新機能を利用できるようになると、テキスト、画像、音声をプロンプトに用いられるようになり、ユーザーが提供する音声または画像のデータをChatGPTが解析し、その内容に基づく応答を行うことができる。この新機能により、テキストでは伝わらないことを伝えられ、より多様なコミュニケーションが可能になる。まずは約2週間をかけてChatGPT PlusプランとChatGPT Enterpriseにロールアウトし、続いて開発者など他のユーザーグループにも展開する。音声機能はiOSアプリとAndroidアプリで利用可能（設定でオプトイン）になり、画像機能はWeb版でも利用できる。

音声機能を利用すると、ChatGPTに話しかけて対話を進めたり、議論を共有して意見を求めたり、または子供のための読み聞かせを頼むといったことが可能。音声認識にはWhisperを用いている。また、5種類のボイスが用意されており、各ボイスは、限られたスピーチサンプルとテキストからでも人が話すような自然なオーディオを生成する新しいtext-to-speechモデルを使って、プロのボイスアクターの声から生成している。

OpenAIは、実際の音声からリアルな合成音声を簡単に生成する技術の大きな可能性を認めており、それを適切かつ安全に活用できるよう他の企業と協力した研究・開発を進めている。25日に音楽/オーディオサービスのSpotifyが、ポッドキャスターが自身の声のサンプルから生成した合成音声を使い、ポッドキャストを他言語に翻訳して提供する機能の試験提供を発表したが、それにも同じVoice Translation技術が用いられている。

自転車の写真を見せてサドルの高さを調整する方法を質問（左）、ボルトかレバーかを確認（中）、マニュアルと自分の工具の写真を見せてツールが揃っているか確認（右）

画像認識機能は、複数枚の画像やスクリーンショット、テキストと画像の両方を含むドキュメントなど、様々な画像の処理に対応する。例えば、冷蔵庫とパントリーの中の写真を見せて夕食のおかずを提案してもらったり、故障したグリルの画像をもとに原因を探ってもらうといったことが可能。モバイルアプリで描画ツールを使用することで、画像の特定の部分を指定できる。例えば、数学の問題集でわからない問題があれば、スマートフォンでそのページを撮影して問題部分にマークをつけることで、ChatGPTに解き方を質問できる。こうした画像認識は、マルチモーダルに対応したGPT-3.5およびGPT-4により実現されている。