仏Mistral AIは11月18日(現地時間)、1240億(124B)パラメータのマルチモーダルAIモデル「Pixtral Large」を発表した。AIチャット「Le Chat」に、Pixtral Largeによるドキュメント・画像の分析、Web Search、Canvas機能、画像生成などの新機能(ベータ版)を追加し、OpenAIの「ChatGPT」やAnthropicの「Claude」に対抗する姿勢を鮮明にした。
Pixtral Largeは、Mistralのマルチモーダルモデルとして2番目にあたるものであり、Mistral Large 2をベースに構築されている。Mistral Large 2の卓越したテキスト推論能力に加え、ドキュメント、グラフ、画像を高度に理解する能力を持つ。128,000トークンのコンテキストウィンドウを備え、最大30枚の高解像度画像を処理することが可能である。
Mathvista、MMMU、MM-MT Benchなどのベンチマークでは、GoogleのGemini 1.5 Pro、OpenAIのGPT-4o、AnthropicのClaude 3.5 Sonnetを一部で上回る、競争力のある性能を示している。
Pixtral LargeはLe Chatを通じて体験可能である。画像やPDFドキュメントの高速な分析を行い、グラフ、表、図、テキスト、数式などを理解し、精度の高い分析や要約を提供する。
発表の中で、定性サンプルとして、多言語OCRのデモを紹介している。ドイツ語と英語が混じった請求書を撮影した画像をLe Chatにアップロードし、「コーヒーとソーセージを買いました。支払い額はいくらですか? 18%のチップを加算してください」と質問した。このデモは海外旅行の際に、請求額を確認する状況を想定していると思われる。
Le Chatは画像から請求書の内容を分析し、アイテムごとの料金を整理して合計支払額を「36.58 CHF」と算出した。
Web Search、Canvas、画像生成は、Le Chatの入力ボックスに表示される各機能のアイコンを押して利用する。
Web Searchは、ユーザーの質問に基づいてWeb検索結果を整理し、引用付きの回答を生成して提供する。Canvas機能は、ChatGPTの「Canvas」やClaudeの「Artifacts」に相当し、チャットとは別に生成コンテンツ(ドキュメント、プレゼンテーション、コード、モックアップなど)の作業エリアを設けて、文章作成やコーディング、デザインを効率化する。画像生成には、独Black Forest Labsの画像生成AIモデル「Flux Pro」が使用されている。