米OpenAIは5月13日(現地時間)、オンラインイベント「Spring Update」を開催し、フラッグシップAIモデルGPT-4の新版「GPT-4o」と、ChatGPTのデスクトップ・アプリを発表した。また、ChatGPTの無料プランの機能とサービスが拡充され、無料ユーザーもGPTsとGPT Storeにアクセスできるようになる。

GPT-4oの「o」は「omni」を意味する。テキスト、音声、画像、それらの組み合わせを入力として受け入れ、出力として生成するマルチモーダルAIモデルである(OpenAIはこれをオムニモデルと呼ぶ)。

これまでOpenAIの大規模言語モデルのアップデートはインテリジェンスの強化が主な焦点だったが、GPT-4oではユーザーとのインタラクションや「使いやすさ」の向上に重きが置かれた。特に、音声によるインタラクションの体験が大きな進歩を遂げている。

GPT-4の音声モードは、音声入力からの待ち時間が平均5.4秒、GPT-3.5は同2.8秒と長く、質問すると回答が返ってくるまでしばらく待たされる。対して、GPT-4oの音声反応速度は、最短232ミリ秒、平均320ミリ秒と非常に高速である。人の反応速は平均208ミリ秒で、言語や文化差で±250ミリ秒以内のばらつきがある。体感として、GPT-4oとは人と話すように会話できる。

「Spring Update」イベントはライブキャストで行われ、GPT-4oの音声反応の良さを示し、感情を込めた物語の朗読、方程式を解き方のレッスン、翻訳(英語/イタリア語)やビジョン分析(「私のセルフィーを見せるから、今どんな気分なのか当ててみて?」)などのライブデモが披露された。

昨年12月にGoogleが「Gemini」を発表した際、「Gemini:マルチモーダルAIとやりとりする」というYouTube動画を公開し、Geminiの音声認識や視覚認識の性能を示した。人と会話しているようなレスポンスの良さが公開直後に大きな話題になったが、実際には編集された動画であり、性能アピールの演出が物議を醸した。そうした経緯を踏まえ、OpenAIはGPT-4oのありのままの体験を示すために、ライブキャストでイベントを行ったと見られている。

イベントのデモでGPT-4oは反応よく、会話の内容をよく理解しながら、表現力豊かに回答していた。

従来の音声モードは3つの独立したモデルのパイプラインになっていて、1つのモデルが音声をテキストに書き起こし、GPT-3.5またはGPT-4がテキストを取り込んでテキストを出力し、3つめのモデルがそのテキストを音声に変換していた。その方法ではGPT-4の関与が限定的になり、遅延も大きくなっていた。

GPT-4oは、テキスト、視覚、音声にまたがる単一のモデルとして、エンドツーエンドでトレーニングされている。ベンチマークでGPT-4oは、テキスト、推論、コーディング・インテリジェンスでGPT-4 Turboレベルの性能を達成し、多言語、オーディオ、視覚機能でTurboを上回っている。

GPT-4oは13日より、有料のChatGPT Plusプランで、テキストおよび画像機能の展開が始まり、無料プランでも利用できるようになる。有料プランではGPT-4oのアクセス枠が大きく、Plusでは無料プランの最大5倍の会話が可能になる。GPT-4oの音声モードについては、今後数週間中にPlusプランのアーリーアクセスから利用できるようになる。

また、APIアクセスも用意されている。GPT-4 Turboと比べて2倍高速で、価格は入力5ドル/出力15ドル(100万トークンあたり)とGPT-4 Turbo(入力10ドル/出力30ドル)の半分であり、レート制限は5倍高い。

無料プランの新機能・サービス

無料プランで利用できるようになるGPTsは、特定のタスクや用途に特化したカスタムバージョンのGPT-4モデルで、一般的な会話以外にも特定のニーズに応じた機能を利用できる。GPT StoreはカスタムGPTを見つけて利用するためのマーケットプレイスである。無料ユーザーはGPTsにアクセスできるが、作成することはできない。

GPTsとGPT Store、GPT-4oを含むGPT-4レベルのインテリジェンスのほか、以下のような機能・サービスが新たに無料プランに追加される。

  • モデルとウェブ検索の両方からの回答
  • データ分析とチャート作成
  • 撮影した写真に関するチャット
  • アップロードしたファイルの要約、記述、分析
  • Memory(ユーザーとの対話や提供される情報を記憶し、継続的な会話の中で活用する機能)

デスクトップ・アプリ

デスクトップ・アプリは、有料プランのユーザーからMac用アプリの配布を開始し、数週間をかけて展開する。今年後半にはWindows版もリリースする予定である。

デスクトップアプリは、PC上での作業でChatGPTをシームレスに利用できるように設計された。キーボードショートカット([Option]+[Space])でChatGPTの入力ボックスを簡単に呼び出せ、他のアプリケーションでの作業を継続しながらChatGPTに質問できる。アプリ内で直接スクリーンショットを撮って質問したり、ファイルや写真のアップロード、写真撮影などにも対応する。音声モードによる音声会話も可能であり、GPT-4oの新しい音声およびビデオ機能も将来導入される予定である。