米Googleが「AI Test Kitchen」のシーズン2で、同社のtext-to-imageモデルを体験できるようにする。
「自転車に乗ってタイムズスクエアを走るコギー犬」というようなテキストの記述から人工知能(AI)がその説明に従った詳細な画像を生成する画像生成AI。同社は今年の春に「Imagen」と「Parti」というGoogle Researchのtext-to-imageモデルの研究成果を公表した。
Imagenは拡散モデルを用いている。元画像データにノイズを少しずつ加え、完全にノイズ化したら逆にノイズを除去しながら元のデータを復元する作業を繰り返して学習させることで、最終的にランダムな点の集まりから元データのような画像を生成できるようにする。Partiは自然言語処理モデルに使用されるTransformerを利用し、言語を翻訳するように与えられた文章を画像に変換する。Imagenはイメージから、Partiはテキストに軸足を置いた異なるアプローチの画像生成モデルであり、どちらも素晴らしい成果を上げているという。
しかし、これまでGoogleはImagenやPartiを一般に公開していなかった。偏見や偽情報が反映されたり、不適切な画像が生成される恐れや、クリエイティビティや芸術に影響を与える可能性があるためだ。OpenAIなど製品化を見据えている企業は安全性を優先したデータセットを学習に用いているが、Google Researchはそうした制限を設けずリスクも検証するように開発を進めてきた。
AI Test Kitchenは、安全な制限付きのデモでAI分野の最新成果を体験できるようにGoogleが提供しているアプリだ(Android、iOS)。今年8月に一般公開され、会話型ニューラル言語モデル「LaMDA 2」のデモを体験できる。AI Test Kitchenのシーズン2では、text-to-imageモデルを使って、言葉で表現した想像の街やモンスターを形にする「City Dreamer」と「Wobble」が提供される。
11月2日に米サンフランシスコで開催された「AI@'22」で、Google ResearchのDouglas Eck氏(シニアリサーチディレクター)は、同社のジェネレーティブ(生成)AIの方向性として、絵筆や印刷機、カメラなどと同じ「情報を整理し、人々の表現力を高めるツールの構築」を挙げた。ImagenやPartiのコア技術の活用例として、テキストから3Dモデルを生成する「DreamFusion」、自分の飼い犬などユーザーが選んだサブジェクトをメインに、text-to-imageモデルで好みの状況を指定した画像を生成できる「DreamBooth」といったプロジェクトを紹介した。