Stability AIは6月22日、プロンプトベースのAI画像生成向けの新モデル「SDXL 0.9」を発表した。4月にリリースしたStable Diffusion XLベータ版に続いてディテールの表現と構図が向上しており、よりリアルな画像の生成が可能になった。

SDXL 0.9は、35億パラメータの単一モデルと58億パラメータのモデルアンサンブルパイプラインで動作する。Stable Diffusion XLベータは24億パラメータを単一モデルだけで使用している。パラメータカウントが大幅に増加したことでコンポジションが向上し、2つのモデルで実行した結果を集約して画像を生成するため、より細かなディテールが追加される。また、これまでに学習された最大級のCLIPモデル(CLIP ViT-g/14)を含む2つのCLIPモデルを使用しており、処理能力が向上し、高い解像度で奥行きのあるリアルな画像を生成する能力が向上した。

Stability AIが22日に公開したブログ記事「Stability AI launches SDXL 0.9: A Leap Forward in AI Image Generation」で、Stable Diffusion XLベータとSDXL 0.9に同じプロンプトを使って生成させた画像の比較を示している。SDXL 0.9はよりディテールを表現し、手の指をより自然なコンポジションで描いている(構図が崩れやすい手はAI生成アートを簡単に見分けられるポイント)。

  • SDXLベータとSDXL 0.9を比較

    プロンプト:aesthetic aliens walk among us in Las Vegas, scratchy found film photograph (左がSDXLベータ、右がSDXL 0.9)

  • SDXLベータとSDXL 0.9を比較

    プロンプト:aesthetic manicured hand holding up a take-out coffee, pastel chilly dawn beach instagram film photography(左がSDXLベータ、右がSDXL 0.9)

SDXLシリーズは、基本的なテキストプロンプト(テキストから画像)に加えて、image-to-imageプロンプト(イメージを入力すると、そのイメージのバリエーションを得られる)、インペインティング(イメージの欠落部分を再構成)、アウトペインティング(既存のイメージをシームレスに拡張)といった機能を備える。

システム要件は、Windows 10/11、Linux、16GB以上のRAM、8GB以上のVRAMを搭載したNVIDIA GeForce RTX 20以上のグラフィックスカード。Linuxでは16GB以上のVRAMを搭載した互換性のあるAMDのグラフィックスカードも使用できる。

SDXL 0.9はオープンソースリリースの前に、研究目的で利用する一部の研究者に提供してフィードバックを収集する。Stability AIのAPI顧客向けへの提供が間もなく始まり、Stability AIのイメージングツール「DreamStudio」や、「NightCafe」のような他の画像生成ツールに搭載される。SDXL 0.9に続き、7月中旬のSDXL 1.0のオープンソースリリースを目指す。