米Googleが昨年12月にAIモデル「Gemini」を発表してからわずか2カ月、2月15日(現地時間)に同社はGeminiのアップデート「Gemini 1.5」を発表した。AI性能が向上しており、汎用的なモデルの「Gemini 1.5 Pro」が1.0世代の高性能モデル「Gemini 1.0 Ultra」と同等のパフォーマンスを発揮する。また、現在は実験的な提供にとどまっているが、最大100万トークンの広大なコンテキストウインドウをサポートする。15日より、AI StudioとVertex AIを介して、開発者と企業顧客にGemini 1.5 Proの限定プライベートプレビューの提供を開始し、一般向けのGeminiサービスに展開する準備を進める。導入は128,000トークンから開始し、100万トークンまでスケールアップできる価格帯を導入する計画だ。
Gemini 1.5は、新しいMoE(Mixture of Experts:複数の専門モデルを混合して、汎用性、精度、効率性を高める)アーキテクチャによって、複雑なタスクを迅速に学習し、品質を維持しながらトレーニングとサービスをより効率的に実行する。この高効率なアーキテクチャによって、高度なバージョンをより迅速にイテレーション、訓練できるようになった。
Googleがテキスト、コード、画像、オーディオ、ビデオの包括的なテストを行ったところ、Gemini 1.5 Proは、大規模言語モデル(LLM)の開発に使用されるベンチマークの87%でGemini 1.0 Proを上回り、Gemini 1.0 Ultraとほぼ同等のレベルのパフォーマンスを示した。
コンテキストウィンドウは、生成AIが応答を生成する際に考慮する直前の入力の範囲を指す。これが大きいほど、より長い会話の文脈や指示を保持できるため、応答の一貫性が保たれ、より関連性の高い応答が可能になる。また、より多くのコンテンツやデータの処理が可能になり、要約、Q&A、トレンド予測、複数のドキュメントの比較対照など様々なことでより複雑なタスクに対応できる。
OpenAIのGPT-4 Turboは、128,000トークン(標準的な本の300ページ以上に相当)のコンテキストをサポートする。Gemini 1.5 Proのプライベートプレビューも128,000トークンがデフォルトだが、実験的に100万トークンのコンテキストウィンドウを利用できる。
100万トークンは、1時間のビデオ、11時間のオーディオ、30,000行以上のコードといった膨大な量の情報を一度に処理できる。Geminiは最初からマルチモーダルでトレーニングされており、テキストだけではなく、音声、画像や動画の処理に優れている。コンテキストウインドウが大きいほど、その特長を活かすことができる。
大きなコンテキストウインドウによって可能になる新たなユースケースとしてGoogleは、アポロ11号の月面ミッションに関する402ページのPDFドキュメント(33万トークンに相当)、約44分のバスター・キートンのサイレント映画(約70万トークン)、約100,000行のthree.jsのサンプルコード(約82万トークン)をGemini 1.5 Proに取り込ませ、内容についての推論や分析、シーンの特定やコードの変更といったタスクを依頼するデモ動画を公開した。複数のファイルのアップロードも可能で、モデルはより多くの情報を取り込みながら、一貫した出力を提供する。動画の処理では、動画のフレームを詳細に分析し、デモ動画では「ポケットから紙を取り出す場面を見つけて、そこに書かれている情報をタイムコードと共に教えて」という依頼に対し、該当するシーンを素早く特定し、紙に書かれたテキストを正確に認識している。
100万トークンのコンテキストウインドウを展開するにあたって、Googleはレイテンシを改善し、計算要件を削減しながら、ユーザー体験を向上させる最適化に取り組んでいる。特定の事実や発言を含む細かなテキストを長いテキストブロックの中に配置したNIAH(Needle In A Haystack)評価において、Gemni 1.5 Proは100万トークンのデータブロックでも99%の確率で埋め込まれたテキストを発見するなど、コンテキストウィンドウが大きくなっても高レベルのパフォーマンスを維持している。DeepMindの研究レベルでは、最大1,000万トークンのテストにも成功しているという。
また、Gemini 1.5 Proは、優れたIn-Context Learning(ICL)スキルを示しているという。これはAIモデルが与えられたコンテキストに基づいて新しいタスクを学習し、適応する能力である。特定のタスクの実行には、通常追加の訓練が必要になるが、ICLによって、AIモデルはタスクの指示や例を含むコンテキスト情報から、追加の訓練なしで新しいタスクを実行できるようになる。