米Googleは2月1日(現地時間)、対話AIサービス「Bard」(実験提供中)で利用できる最新のAIモデル「Gemini Pro」の対応言語を日本語を含む40言語以上に拡大した。230以上の国・地域で利用できる。また、テキストから画像を生成する機能をBardに統合した。
GeminiはGoogleが昨年12月に発表したAIモデルで、複数の異なるモダリティで最初から事前訓練されたマルチモーダル・ネイティブであることを特徴としている。軽量版、汎用版、高性能版の3つのバリエーションがあり、Gemini Proは幅広いタスクに効率的に対応する汎用的なモデルである。発表後すぐにBardでGemini Proによるより高度な理解、推論、要約、コーディングを体験できるようになったが、これまでは英語のみの提供だった。
さらにBardでは「ダブルチェック」機能も40以上の言語で利用できるようになった。 これは、Bardによる回答の正確性や矛盾の有無を、Web上のコンテンツと照らし合わせて再確認してもらう機能だ。各回答の下に表示される「G」アイコンをクリックして利用する。
BardでのAI画像生成は、「create an image of a dog riding a surfboard」というように何かを描くように頼むと、そのプロンプトに応じた画像が生成される。これには、アップデートされたText-to-Image拡散モデル「Imagen 2」が用いられている。より高品質な画像と説明文のペアリングでトレーニングされており、言語プロンプトのニュアンスをより汲み取って、以前よりも細部を正確に処理した詳細な画像を生成できる。Imagen 2は日本語を含む複数の言語をサポートしているが、Bardでの利用は英語に限られている。AI生成された画像であることを証明するため、BardはSynthIDを使用してAI生成画像のピクセルにデジタル的に識別可能な透かしを埋め込む。
Googleはまた、最新のImagen 2を搭載した「ImageFX」という新しい写真ツールの実験的な提供をAI Test Kitchenで開始した。
Bardはシンプルなプロンプトから複雑なプロンプトまで幅広く対応するが、その柔軟性のために、画像AI生成を初めて使う人がプロンプト作成に慣れるのに時間がかかる場合がある。ImageFXでは、シンプルなテキスト・プロンプトで画像を生成すると、プロンプトの単語が「expressive chip」に変換され、例えば「jungle」という単語に対して「mountain, city, beach」といった別の表現の提案をチップから簡単に選択できる。ユーザーが作成したプロンプトに関連する別の表現を試し、生成画像の変化を確認しながらAI生成画像のテクニックを習得したり、新しいアイディアを見つけることができる。