生成AIを開発するStability AIは3月11日(現地時間)、開発中でもうすぐ初期プレビュー版をリリース予定の「Stable Diffusion 3」を用いて、AI向けアクセラレーターのベンチマークテストの結果について公開した。Intel製品がNVIDIA製を圧倒している……という内容だが、NVIDIAが最近公開した最適化で逆転される例もあるようだ。
Stability AIはStable Diffusionシリーズを開発している組織で、現在最新バージョンとなる「Stable Diffusion 3」を開発中。これに際して強力な計算資源が必要だったとしており、Intel Gaudi 2アクセラレーターを選択。「リードタイムが最大1年に及ぶシリコンプロバイダーと異なり……」と他社について言及しつつ、Intelは最先端のGaudi 2をすぐに提供可能だったことや、競合より16GBも多い96GB HBM2eメモリを採用していたことで大規模なモデルの実行に向いていたという。
そこで、Stability AIはIntel Gaudi 2とNVIDIA A100、NVIDIA H100を用いてトレーニング速度を比較。2つのノードで合計16個のアクセラレータをそれぞれ用い、2Bマルチモーダル拡散トランス(MMDiT) のトレーニングスループットを計測した。
Intel Gaudi 2は1秒当たり927枚もの画像処理を行い、NVIDIA H100 80GBよりも1.5倍高速だった。さらに、NVIDIA H100よりも大規模なHBM2eメモリを搭載していることから同時処理するバッチ数を32に設定することも可能で、この場合は1,254枚の画像処理が行えたという。
ただし、NVIDIAはTensorRTを活用したLLMトレーニング向けに強力な最適化を継続しており、ライブラリによってはNVIDIAのほうが速い場合もあるという。例えば、PyTorchを使用したStable Diffusion XLモデルにおけるテスト(30ステップ、1.024×1,024ドット画像の生成)において、Intel Gaudi 2では3.2秒で生成可能。NVIDIA A100(PyTorch)では3.6秒だったが、NVIDIA A100(TensorRT)では2.7秒しかかからなかったと言及している。