米Googleは12月11日(現地時間)、AIモデル「Gemini」の新バージョン「Gemini 2.0」を発表した。同日より、Google AI StudioおよびVertex AIの Gemini APIを通じて「Gemini 2.0 Flash」の試験運用版モデルの提供を開始した。また、Geminiの対話型AIサービスでも試験運用版モデルを利用できる。

  • Project Mariner

Googleは昨年12月、マルチモーダルAIとして構築したGemini 1.0をリリースし、今年2月に最大100万トークンに対応する広大なコンテキストウインドウを備えた「Gemini 1.5」を発表した。テキスト、ビデオ、画像、オーディオ、コードなど多様な情報を理解し、膨大な情報を効率的に処理できるGeminiは、AI市場に新たな競争をもたらし、より高度なタスクへのAI活用を加速させてきた。

GoogleはGemini 2.0を「エージェント時代の新しいAI モデル」としている。Gemini 1.5から、マルチモーダル対応がさらに強化され、より高度な推論や複雑なタスク処理が可能となった。

FlashはGemini 1.5で追加されたバージョンで、高性能モデルGemini Proを用いて蒸留(Distillation)技術で開発されたモデルである。高速かつ効率的な処理に特化した設計で、高度なAI機能のリアルタイム応答を実現する。モデルのサイズがコンパクトであるため、さまざまなデバイスで利用することが可能である。Gemini 2.0 Flashは、1.5 Flashを基に構築されており、高速かつ効率的な処理を維持しつつ、主要なベンチマークで1.5 Proを上回る結果を達成している。

Gemini 2.0 Flashは、画像、動画、音声などのマルチモーダル入力に対応するだけでなく、ネイティブ生成画像や多言語対応のテキスト読み上げ(TTS)など、マルチモーダル出力も可能である。また、Google検索やコード実行、サードパーティのユーザー定義関数といったツールを直接呼び出すことができる機能も備えている。これらの要素の組み合わせにより、「新しいクラスのエージェント体験を実現する」としている。

例えば、5月にGoogle I/O 2024で紹介された「Project Astra」は、モデルの強化により、人間との会話と同等の低遅延でスムーズな対話が可能となり、多言語や混合言語にも対応する。また、Google検索、Lens、マップなどのツールをシームレスに利用できる。

さらに、発表で「Project Mariner」と「Jules」というエージェントの研究プロジェクトを紹介している。Project Marinerは、ブラウザ内のピクセルやテキスト、コード、画像、フォームといったWeb要素を分析し、Chrome拡張機能を通じてタスクを実行する研究プロトタイプである。一方、JulesはGitHubワークフローに直接統合されたコードエージェントで、開発者の指示のもと、プロジェクトの立案から実行までを支援する。

  • Project Mariner

    Project Marinerで「この会社のリストを記憶し、それぞれのWebサイトを見つけて、連絡できるメールアドレスを調べ、後で使えるように覚えておいて」と指示。

また、仮想世界やゲーム分野でのエージェントの活用も探求している。大手ゲーム開発会社との協力のもと、エージェントがどのように機能するかを調査し、「Clash of Clans」のような戦略ゲームから「Hay Day」のような農業シミュレーターまで、さまざまなゲームでルールと課題を解釈する能力をテストしているという。エージェントは、仮想ゲームの仲間となり、またはGoogle検索を用いて、ゲームに関する情報をユーザーに提供するナビゲーターとして機能する。