生成AIの画像生成機能を使ってロゴを作成する方法を以前Copilotをベースにしてまとめた。今回はそのときと同じようなプロンプト指示をGoogle Geminiに対して行い、どのような違いが現れるかを見ていく。基本的に同じ世代の技術であり、できることは似ている。
連載「Google Geminiの活用方法」のこれまでの回はこちらを参照。
生成AIで画像を描く
生成AI技術を使ってテキストから画像を生成した場合、その著作権は誰が持つことになるのか、生成した画像の利用に関してどのような法的な状態になるのかが気になるところだ。そのあたりは以前「【連載】画像生成の未来を体験しよう! DALL·E 3の世界 | TECH+(テックプラス)」にまとめたので、興味がある方はご覧いただければと思う。
具体的にどのようなプロンプトで比較的思い通りの画像が生成できるかは「【連載】Copilot in Windowsを使ってみよう | TECH+(テックプラス)」で取り上げた。
今回は特に次の記事で取り上げた指示をGoogle Geminiで実行し、どのような振る舞いを見せるのかを取り上げる。
世代的に同じ技術であり生成される結果、あるいは生成できる条件にそれほど大きな違いはないが、執筆時点ではGoogle Geminiを使う場合には英語で指示するというフェーズが発生する。そのあたりもカバーしながら方法を紹介しよう。
画像生成のポイントは細かく指定すること
OpenAI DALL・E 3もGeminiから使われる画像生成機能も、現在想定されている主な用途はアイデアを膨らませるための使い方だ。生成AIはさまざまな画像を生成することができるが、既存の画像に指示を出して編集するといった使い方はできない。現在の世代の生成AIは基本的に常に新しい画像を生成するように機能する。
このため、目的とする画像を生成するもっとも重要なポイントは、ひとつのプロンプトに全ての指示を書いておくことにある。あとから指定して編集することができないためだ。最初から細かく指定しておくことで、画像の方向性をある程度定めることができる。