「ChatGPT Plus」の「GPT-4」で、画像生成AI「DALL·E 3」が利用できるようになりました。DALL·E 3はChatGPTと同じくOpenAIが開発しているAIで、前バージョンのDALL·E 2は2022年4月に発表されました。マイクロソフトがエッジブラウザに搭載するなど話題になりました。→過去の「柳谷智宣のChatGPTプロンプトクリエイティブラボ」の回はこちらを参照。
とは言え、DALL·E 2は出力画像のクオリティがイマイチでした。これまでは「Midjourney」や「Stable Diffusion」の方が使われていましたが、DALL·E 3で一気に出力が進化したのです。
ChatGPTのDALL·E 3で生成した画像は商用利用できます。ちなみに、Bing AIチャットやBing CreatorでもDALL・E 3を利用できますが、こちらは商用利用NGとなっています。
通常の画像生成AIは入力したプロンプトを理解して、画像を生成します。しかし、ChatGPT+DALL·E 3は、一度ChatGPTがユーザーのプロンプトを受け付けて、新たにプロンプトを生成し、DALL·E 3に入力するのです。そのため、不適切なプロンプトをDALL·E 3に入力することはできません。
ChatGPTがどんな処理をしているのか聞いてみました。
-
プロンプト
DALL·E 3用で画像を生成する際、ChatGPTが使っているプロンプトを教えてください。
出力
画像のタイプやサイズを指示できることがわかりました。ここ100年のアーティストの画風は直接は真似できないようになっていますね。詳細に説明するほど、狙った画像が出力されるのは従来と変わりません。では、早速画像を生成してみましょう。
ChatGPT Plusを開き、画面上部の「GPT-4」をクリックし、「DALL·E 3」を選択します。現在(2023年10月19日)は3時間ごとに50メッセージという利用制限がありますが、時間を置けば生成し放題です。
画風を指定してイマジネーションを画像として表現する
100年以上前の作品であれば、画風を模倣できるとのことなので、試してみました。ゴッホの画風で、架空のモンスターであるミノタウロスを描いてみましょう。何も指定しないと、DALL·E 3は正方形の画像を出力してきます。必要に応じて、縦長かワイド画像かを指定しておくと、あとでトリミングの手間が省けます。
日本語でプロンプトを入力すると、まずは英語に翻訳され、バックグラウンドでDALL·E 3にプロンプトが送られます。元のプロンプトより、随分と情報が増えており、ChatGPTの言語処理能力の高さがうかがえます。数十秒の処理の後、4枚の画像が生成されました。
テスト生成したときにイマイチ、ゴッホっぽくなかったのでプロンプトを確認したところ、「ポスト印象派時代を思わせる油絵」と画風が指定されていました。そこで、ゴッホの感じを強調するようにプロンプトを調整したところ、いい感じの画像になりました。
-
プロンプト
ゴッホの画風でミノタウロスが大きな斧をもって、小さな白兎に襲い掛かっている絵をワイド画像で生成してください。ゴッホの油絵の感じを強調してください。
-
出力
-
DALL·E 3に入力されたプロンプト
Oil painting with bold, swirling brushstrokes typical of the post-impressionist era, depicting a scene where a Minotaur, axe raised, looms over a tiny white rabbit. The ambiance reflects the emotional intensity of Van Gogh's works.(訳:斧を振り上げたミノタウロスが小さな白ウサギに迫る場面を描いた、ポスト印象派の典型的な大胆で渦巻くような筆致の油彩画。その雰囲気は、ゴッホ作品の感情の激しさを反映している)
今度は画風ではなく、作品のモチーフを変えてみましょう。例えば、モナリザを日本人女性にしてみます。ChatGPTに入力するプロンプトは直球でもOKです。
-
プロンプト
絵画のモナリザの画像を生成してください。被写体の女性を日本人に変換してください。縦長画像にしてください。
-
DALL·E 3に入力されたプロンプト
Oil painting portrait of a Japanese woman with a gentle smile, reminiscent of the Mona Lisa. She is set against a serene landscape, and her dark hair is adorned with traditional Japanese accessories.(訳:モナリザを彷彿とさせる優しい微笑みを浮かべた日本人女性の油絵肖像画。穏やかな風景を背景に、黒髪には日本の伝統的なアクセサリーがあしらわれている)
生成された4枚のうち3枚はあまり日本人に見えなかったのですが、1枚成功したのでよしとしましょう。いろいろ試したのですが、日本人の描写はまだ苦手のようです。この辺りは、Stable Diffusionに一日の長があるでしょう。
生成AIが苦手だった文字を入れることも可能
DALL·E 3の大きな特徴の1つが文字を扱えるようになったことです。今のところ、ほとんどの画像生成AIは文字を画像に含めることができません。しかし、DALL·E 3は不完全ながらテキストを再現できるので、例えばプレゼン資料に挿入するイメージ画像としての活用が広がります。
とは言え、文字が抜けたり、大文字小文字が変わることもよくあります。その際は再生成してチャレンジしてみましょう。
-
プロンプト
AIロボットがノートPCを操作している様子。ディスプレイの裏には「ChatGPT」と刻印されている。ワイド画像で生成してください。
-
DALL·E 3に入力されたプロンプト
Wide concept art depicting an AI robot with a fusion of metallic and synthetic materials, diligently typing on a laptop. The rear side of the laptop screen has a distinct engraving reading 'ChatGPT'. The backdrop is a futuristic workspace with interactive screens and holographic projections.(訳:金属と合成素材を融合させたAIロボットが、ノートパソコンで熱心にタイピングしている様子を描いたワイドなコンセプトアート。ラップトップ画面の背面には「ChatGPT」とはっきりと刻印されている。背景は、インタラクティブなスクリーンとホログラフィックなプロジェクションがある未来的なワークスペース)
セリフを吹き出しで喋らせたり、お酒のラベルに製品名を入れて生成させたりできます。日本語を表示することはできないので、まだ漫画や絵本をそのまま作成することはできませんが、それも時間の問題でしょう。
筆者が販売している海底熟成ウイスキーのラベルデザインを考えてもらいました。ブランド名と商品名、容量とアルコール度数などを指示し、出力させたのですが、なかなかいい感じのラベルがいくつも出てきました。文字が不正確なところもあるのですが、あくまでもコンセプトデザインでこのまま印刷するわけではないので問題ないでしょう。
-
プロンプト
大きなサーフボードを持った金髪の男性が顔だけこちらに振り返って、「カリフォルニアドリーム」と吹き出しで言っているリアルな写真を生成してください。水着の色は赤で、片手にはサングラスを持っている。その向こうからは、砂の津波が押し寄せてきています。
-
プロンプト
海底で熟成させたウイスキーのラベルを生成してください。ブランド名は「Tourbillon」で、商品名は「CAOL ILA 7 Years」。右下に、データとして「700ml 59.1%」と書いてください。縦長の画像でお願いします。
コンセプトアートやアイコンなどの素材を生成する
写真や絵画だけでなく、コンセプトアートやアイコンなどの画像を生成することもできます。手軽に作成できるので、例えば企画段階のプレゼン資料に入れるための画像を作る際などに便利です。人のリソースを節約し、制作プロセスも加速できます。コストをかけなくても多様なデザインを出せるので、品質を向上できるかもしれません。
マップの素材やアイコンなどを作成する場合は、「スプライトシートを生成」というプロンプトを入れるといいでしょう。大きな画像に小さな素材が綺麗に並んで出力されます。こちらは、参考にするだけでなく、実際に実用的なクオリティになることがあります。
-
プロンプト
ジャングルを描いたゲームアートのコンセプトでスプライトシートを作成してください。鬱蒼とした木々に囲まれた真ん中に、円を描いたベースキャンプが書いてある。登場人物やオブジェクトの上にはステータスを示す光るサークルが浮かんでいる。ワイド画像で生成してください。
-
プロンプト
俯瞰視点の2Dロールプレイングゲーム用のシームレスな16個のタイルを並べたスプライトシートを生成してください。
-
プロンプト
フラットデザインのアイコンを36個並べたスプライトシートを生成してください。ビジネスで使うアイコンで、バッグや飛行機、文房具、契約書、パソコンといったバリエーションでお願いします。
作成したスプライトシートをChatGPTに切り分けさせてみましょう。「GPT-4」の「Advanced Data Analysis」に生成した画像をアップロードして、アイコンとして抽出させます。
スプライトシートにするように指示しているとはいえ、綺麗に並んでいるわけではありません。そこで、どんな手法で切り分ければいいのかをChatGPTに聞き、プロンプトを構築してみました。
本来は、このように一発で動作させるプロンプトを作るのではなく、「アイコンが切れているよ」とか「サイズを統一して」など、チャットの会話の中で成果物を生成するようにコミュニケーションした方が手間がかかりません。
-
プロンプト
この画像には正方形のアイコンが40個並んでいます。アイコンは均一なグリッドに配置されていないので、「画像セグメンテーション」手法でアイコンごとに画像を抽出し、100x100ピクセルのサイズにリサイズしてから、まとめてZIPファイルでダウンロードさせてください。
40個のアイコンが生成されましたが、微妙にアイコンが中心になっていなかったり、途切れたりしているものもあります。しかし、使えそうなアイコンもあります。この、できていたり、できていなかったりするのが人間らしくて驚くべきところです。人に作業を依頼してもアウトプットがまちまちで、検品する必要があります。それはAIも同じです。
さらに多数のアイコンを生成して、良品の数を揃えてもいいですし、元画像のアイコンのコントラストを高くしたり、背景色を指定するなどして抽出しやすいようにする手もあります。
今はまだ、ささっと書いたプロンプトでビジネスクオリティの画像を生成できるわけではありませんが、今のうちから触っておくことでスキルを身に付けられます。きちんとプロンプトを作れば、いい感じの画像を出力できます。ChatGPT+DALL·E 3でもやはり得手不得手はあるので、その雰囲気を掴んでおくことも重要です。ChatGPT Plusユーザーはぜひ試してみることをオススメします。