Googleも"推論型"AIモデル公開「Gemini 2.0 Flash Thinking」、OpenAI o1に対抗

米Googleは12月19日（現地時間）、Gemini 2.0 Flashを基に構築した”推論型”AIモデル「Gemini 2.0 Flash Thinking」を発表した。Gemini 2.0 Flash Thinking Experimentalという実験段階のモデルを、Googleの生成AIプロトタイピングプラットフォーム「AI Studio」およびGemini APIで試すことができる。このモデルはまだ開発初期の段階であり、プロダクトリーダーであるローガン・キルパトリック氏は「これは推論の旅の第一歩に過ぎない」と述べている。

Gemini 2.0 Flash Thinkingの概要には、「マルチモーダルな理解、推論、そしてコーディングに最適」であり、プログラミング、数学、物理学といった分野において「最も複雑な問題を推論する能力を持つ」と記されている。このモデルは、OpenAIのo1や他のいわゆる推論型モデルと同様、より深く考えて推論を強化するようにトレーニングされている。しばらく前に、ChatGPTが「Strawberry」に含まれる「r」の数を正確に数えられないことが話題になったが、大規模言語モデルは単語やフレーズを予測するように設計されており、その仕組みから文字カウントのようなタスクで誤りを起こしやすい。

推論型AIモデルは、特定のルールやアルゴリズムに基づいて論理的な推論や演算を行う。データの文脈理解や創造性よりも、数学的な計算や因果関係の解析、問題解決の正確性に特化して設計されており、従来のAIモデルをつまずかせていた推論の落とし穴を回避することができる。その一方で、推論型モデルは回答生成に至るまでの時間が長くなることが多い。

GoogleのAI部門の責任者であるジェフ・ディーン氏がXへの投稿で、無限井戸型ポテンシャルのエネルギーレベルと光子放出に関する問題を解かせるデモを公開している。またキルパトリック氏が視覚要素とテキスト要素の両方を含む問題を推論させるデモを公開している。

OpenAI o1のリリース以降、推論型AIモデルが次々と登場している。Googleについては、10月にBloombergが、推論型AIモデルの開発に複数のチームが取り組んでいると報じた。また、11月にThe Informationが報じたところによると、数十人規模だった推論型AI技術に注力する研究者を約200人に拡大した。