「GPT-4o」はOpenAIが開発したマルチモーダルな生成AIです。「o」は「omni」の頭文字で「全体」を意味しており、テキストのみではなく音声や画像にも対応しています。2024年5月13日に発表され、これまでのGPT-4同様に、スマホアプリやAPI経由などで利用可能です。加えて、MacOS向けのアプリも提供されるようになりました。
このGPT-4oは、ChatGPTの無課金ユーザーでも利用できます。これまで有料版の利用に二の足を踏んでいた方もぜひ試してみてください。なお、GPT Storeに登録されているGPTsを、無課金ユーザーも利用可能となりました。
実際、何がすごいの?
「早い、安い、自然」と3拍子揃っているのが、GPT-4oの特徴です。
これまでのGPT-4よりもレスポンスが早く、API利用時の料金は半額となっています。そして、より“人間に近い”機能を備えていると言われています。例えば、笑いを含むリアクションをしたり、シーンに合わせてさまざまな口調や言い回しをしたりといった具合です。
ただし、実際どんな感じなのかは見てみないと分かりにくいと思います。OpenAIが公開している1分強のYoutube動画「Say hello to GPT-4o」を見ると、イメージを素早くつかむことができるでしょう。
動画の中では、人間とChatGPT(GPT-4o)の音声によるやり取りが行われています。特徴的な箇所は以下の会話部分で、リアクション含めて極めて自然な会話となっています。
人間:「新しい製品の発表がある。実はあなたに関するものなんだ」
ChatGPT(GPT-4o):「ん? 私? 」(少し笑いながらリアクション)
また、同じくOpenAIが公開している「Two GPT-4os interacting and singing」では、スマホにインストールされた2つのAI同士を対話させている様子が見られます。音声や画像を認識した上で会話が展開されており、まるで人間同士のやり取りのような世界が実現できているのです。
ただし、2024年5月13日の発表において、「We'll roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.」とあります。つまり、GPT-4oで進化した音声機能については、今後リリースされる予定となっています(2024年6月30日現在)。もちろん、従前からのGPT-4の音声機能は利用可能です。
モデルの精度
F GPT-4oはOpenAIのフラグシップモデルとなっており、以下の通りMMLU(Massive Multitask Language Understanding )などさまざまなベンチマークで高い精度を誇っています。
GPT-4oとGPT-4でそれぞれどんなモデルが使われているかは、公式サイトを参照してください。
なお、2024年6月21日に米Anthropicから「Claude 3.5 Sonnet」が発表され、次々と新しいモデルや、新たな機能が生まれてきています。
Mac版アプリが利用可能に
従来、スマホ版のアプリを使っていたが、Macでも使いたいと思っていた方もいらっしゃるのではないでしょうか。以下に、Mac版アプリのインストール方法と使い方を紹介します。
ChatGPTの画面にMacのSafariなどでアクセスすると、Mac版アプリが利用可能な旨の通知が表示されます。
画面右上のアカウントのアイコンをクリックし、「macOSアプリをダウンロードする」を選択します。
「ChatGPTDesktoppublic_latest.dmg」ファイルがダウンロードされます。ファイルをダブルクリックし、以下のように通常のdmgファイルと同様の方法でインストールします。
LaunchpadからChatGPTを開いてログインすると、GPT-4oモデルが選択されていることが分かります。また、スクリーンショットを撮ってGPT-4oに聞いたり、右下のヘッドフォンアイコンをクリックすることで音声チャットを開始したりすることもできます。
ランチャー経由での起動も可能です。
インストールと簡単な利用方法の紹介は以上です。
なお、今後ChatGPTと通常のPC操作がよりシームレスになっていくことが考えられます。例えば、2024年6月10日に米Appleから「Apple Intelligence」が発表されました。これにより、今後、「ユーザーがツールの間を行ったり来たりしなくても、ChatGPTの専門知識や画像と文書を理解する機能にアクセスできる」ようになるとされています。
究極的には、ChatGPTを使っているということをあまり意識することなく、便利な機能を享受できるようになると考えられます。
マルチモーダルに触れてみる
では、今回のタイトルにもなっている「マルチモーダル」とは何でしょうか。
GPT-4oはテキスト以外、つまり音声や画像、動画のモーダルにマルチに対応しています。つまり、テキストによるチャットボットとしての側面に加えて、音声(を処理する耳・口)と画像(を処理する目)を持っているというわけです。
これらをマルチに組み合わせた例を3点紹介します。