米Googleは12月16日(現地時間)、Google Labsを通じて、「Whisk」という新しいAI画像生成ツールの提供を開始した。詳細なテキストプロンプトを記述する代わりに、参考画像を活用して画像生成を進める。現在はアルファ版であり、提供地域は米国のみとなっている。

参考画像を利用する画像生成ツール自体はすでに存在するが、Whiskは「参考画像からプロンプトを作る」独自のアプローチを採用している。

参考画像を用いる最大のメリットは、複雑なプロンプトを必要とする画像を効率的に作成できる点である。たとえば、下の画像は136単語・795文字のテキストプロンプトから生成されている。犬種、色や特徴、表情、ピンの質感などをテキストで指定する場合、柴犬のピンバッジ1つの生成でも膨大な情報量が必要になる。

参考画像を用いることで、ユーザーは求めるデザインやアートスタイルを視覚的に示すことができる。テキストでは表現が難しいビジュアルも画像なら明確に伝えられるため、生成結果の精度向上も期待できる。

しかし、参考画像に依存すると、ユーザーの作品作りのオリジナリティが失われ、参考画像に似た作品が生成されやすくなる。また、参考画像が具体的すぎると、AIのランダム性や創発的な結果を楽しむ要素も減少してしまう。

Whiskは単に画像を視覚的に参照するのではなく、Googleの大規模言語モデル「Gemini」を活用し、参考画像から詳細なキャプションを生成。そのテキストをプロンプトとして、Googleの最新画像生成モデル「Imagen 3」に入力して画像を生成する。

ユーザーはWhiskで、「テーマ」「シーン」「スタイル」の3種類の参考画像を提供でき、これらをリミックスしてイメージが作成される。参考画像はアップロードするか、Whisk内でテキストプロンプトを使って生成することも可能である。

たとえば、上の画像はWhiskで生成したもので、この例の場合、「テーマ」は柴犬の画像、背景は空白にしたかったので「シーン」には参考画像を加えていない。そして「スタイル」はエナメルピンの画像である。さらに「首輪を付けている」という補足プロンプトを入力して、生成した結果が上の赤柴のピンバッジの画像である。140単語近い複雑なテキストプロンプトを作成することなく、目的の画像を簡単に生成できた。

下の画像はシーンも入れた例である。これは全てWhikで生成した画像を参考画像に用いた。テーマ画像のプロンプトは「赤柴」、シーン画像は「グローサリーストアの入り口」、スタイル画像は「日本の漫画」と、どれも簡単なテキストプロンプトで生成したものだ。そして追加情報として、「飼い主を待っていて退屈そうな柴犬」というテキストプロンプトを加えた。二段目の画像は、追加情報に「店の看板に大きく『コンビニエンスストア』」を追加したものだ。

何枚か生成を試してみたところ、予想と異なる画像が生成されることもあったが、簡単な操作とプロンプト入力で、意図通りの画像が得られるケースが多かった。GoogleはWhiskの参考画像からプロンプトを作成する手法について、「複製ではなく、サブジェクトの本質を捉えることで、サブジェクト、シーン、スタイルを斬新な方法で簡単にリミックスできる」と説明している。

実際、視覚的に伝えられる参考画像のメリットを活かしつつ、参考画像に引きづられることなく、オリジナリティを保った作品作りを楽しめた。参考画像がテキスト説明に変換されるため、作成プロセスを通じてテキストを編集して細かな調整を加えられる柔軟性も備えている。