米OpenAIは7月18日(現地時間)、「GPT-4o mini」を発表した。優れたマルチモーダル推論と低コストを両立させたGPT-4oの小型モデルである。18日より、Assistants API、Chat Completions API、Batch APIを利用するAPI顧客に、GPT-3.5 Turboに代わるテキストおよび視覚モデルとして展開を開始した。エンタープライズ顧客には、来週に提供を開始する。

GPT-4o miniは、GPT-4oと同じ範囲の言語をサポートしている。「MMLU」(自然言語処理モデルの理解力と推論能力を総合的に評価)スコアは82%と、GPT-3.5 Turboや他の小型モデルを上回っている。数学に特化したベンチマーク「MGSM」は87.0%、多言語対応能力と多分野にわたる言語理解能力を評価する「MMMLU」も59.4%と、いずれも高いスコアで優れた実用性を示している。

128Kトークンのコンテキストウィンドウを持ち、リクエストごとに最大16Kの出力トークンをサポートする。知識は、2023年10月までのデータを学習済みである。

マルチモーダル機能については、現在テキストと視覚をサポートしており、将来的にはテキスト、画像、動画、音声の入出力に対応する予定である。

安全性に関しては、事前トレーニングで、ヘイトスピーチ、アダルトコンテンツ、個人情報収集を目的としたサイト、スパムなどをフィルターアウトした。さらに、ポスト-トレーニングで人のフィードバックによる強化学習(RLHF)などを使用して、モデルの行動をポリシーに適合させている。

GPT-4o miniには、GPT-4oと同じ安全対策が組み込まれている。社会心理学、誤情報の拡散メカニズムやデジタルリテラシーなど、関連する分野の70人以上の外部専門家がGPT-4oをテストしており、特定された潜在的なリスクに対応した。OpenAIは、今後公開予定のGPT-4oシステムカードおよびPreparednessスコアカードで詳細を共有する予定である。

API料金は、0.15ドル/1M入力トークン、0.60ドル/1M出力トークン。GPT-3.5 Turbo(0.50ドル/1M入力トークン、1.50ドル/1M出力トークン)より効率的かつ安価に、強力なAIアプリケーションを構築・拡張できる。