OpenAIは現地時間2023年9月25日、ChatGPTによる音声機能および画像機能の展開を開始したと公式ブログで発表した。ChatGPT PlusおよびEnterprise向けには今後2週間以内の展開を開始し、音声機能はiOSおよびAndroid、画像機能はすべてのプラットフォームで利用できる。

ChatGPT can now see, hear, and speak

ChatGPT can now see, hear, and speak(公式ブログ)

音声機能は新たな搭載したテキスト読み上げモデルで人間のような音声を生成。同社は「プロ声優陣との共同作業から各音声を作り上げた」と説明した。また、同社が関わるオープンソースベースのWhisperを併用した口語のテキスト化にも対応する。画像機能は複数の画像ファイルに対応し、GPT-3.5およびGPT-4を用いた言語推論能力で画像分析を行う。

今後OpenAIはSpotifyと共同開発したAI音声翻訳機能や、画像入力における各種リスクに対応させる機能の実装を予定しており、透明性を担保しながら機能強化を図る予定だ。