AMD Instinct MI300X/MI300A Update - 注目の対NVIDIA H100性能は？ CDNA 3世代の新型GPU

既報の通り、AMDは"Advancing AI"イベントを開催、AMD Instinct MI300X/MI300Aに関する詳細とRyzen 8040シリーズについて説明を行った。このうちRyzen 8040シリーズに関しては、少なくともイベントの中での説明は既報のものと変わらないというか特に新しい情報は無かったので、AMD Instinct MI300X/MI300Aについてのみ追加でレポートしたい。

AMD Instinct MI300X/MI300Aについては、「ある程度」の詳細レポートを6月にお届けしているので、ここからのUpdateということになる。もっとも現状は(後述の様に)あくまでもサンプル出荷のレベルとあって、同社の仕様一覧ページにもまだInstinct MI300X/MI300Aは上がっていない。

Instinct MI300X

Photo01: ただ以前の説明ではHBM3の帯域は合計で5.2TB/secとしていた。

さてまずはInstinct MI300Xについて。4つのIODの上に8つのXCDが搭載され、更に8つのHBM3 Stackが実装されるという構造そのものは以前ご紹介した通りであるが、

IODには合計で256MBのInfinity Cacheが搭載される。つまりIODあたり64MBとなる。
XCDは合計で304CUであり、つまり1個のXCDあたり38XCUという計算になる。
HBM3に関しては特に違い無し。

といったあたりだ。動作周波数は相変わらず未公開のままだが、性能に関してはFP16で1.3PFlops、FP8で2.6PFlopsと説明された。もしCDNA 3がRDNA系統と同じくCDNA 2の2倍の演算性能だと仮定すると、XCUあたりの演算性能はFP16で2048演算/cycleとなる。つまり8XCD=304XCUで1622592Flops/cycleなので、動作周波数は2GHz位になる計算である。これはちょっと高すぎる気もしなくはないが、実現不可能という訳でもない。あと気になるのは、AMD Instinct MI200シリーズの場合FP8は未サポートだったがInt 8だとやはり1024演算/cycleだったことで、Instinct MI300XがFP8で演算性能倍増というあたりは、内部構造にだいぶ手が入っている気がする。あるいは、ダイサイズから考えるとXCUあたりの演算性能はCDNA 3の4倍で、動作周波数は1GHzというあたりなのかもしれない。

またHBM3に関しては本来だとpinあたり6.4Gbpsなので、1024bit幅で819.2GB/sec。これが8つで6.55TB/secになる計算だが、5.3TB/secということはpinあたり5.1～5.2Gbpsまで信号速度を落として接続していることになる。歩留まり、あるいは消費電力との兼ね合いなのか、それともCDNA3コアが必要とする帯域に合わせたのか、は不明である。

そんなInstinct MI300Xであるが、今回はもう少し具体的に性能比較も示された。まずこちら(Photo02)は、LLM KernelのスループットをH100と比較したものである。次がTrainingのパフォーマンス(Photo03)で、これはH100と同等。そしてInferenceでは1.4～1.6倍高速(Photo04)とされた。このInstinct MI300Xを8つ搭載したシャーシ(Photo05)とH100 HGXを非アックした場合、メモリ量と演算性能で上回っているとアピールした(Photo06)。こちらがそのまとめである(Photo07)。

Photo02: 2種類のKernelのどちらについても、10～20%スループットが高いとする。

Photo03: 説明では"30 billion parameter model from Databricks, MPT LLM"の場合のTrainingの性能比較とのこと。

Photo04: どちらも8 GPUのSingle Server構成。Bloomは1760億パラメータ、Llama 2は700億パラメータのモデルとされる。

Photo05: 多分6月に展示されたこれと同じものと思われる。

Photo06: 消費電力とか価格の比較も欲しかったところではある。

Photo07: メモリ量が倍以上あるので、2倍の規模のLLM Modelをロードできるのが最大の強みである。ただInferenceでは1.6倍の性能なのにTrainingでは同等に落ちるあたりが問題と言えば問題なのかも。

ただ、物理的というかハードウェア的にH100を上回ったスペックでも、ソフトウェアの対応が遅れているのがAMDというかNVIDIA以外の問題であった。例えばAMDはNVIDIA用に記述されたLLMを、MosaicMLと共同でPyTorch 2.0とROCm 5.4を利用してInstinct MI250に移植したが、性能はこんな感じ(Photo08)でMI250はA100-40GBにも及ばない程度の性能しか出なかった。これに対する回答がROCm 6である(Photo09)。ROCm 6は特に生成AIの性能改善に注力したとしており(Photo10)、結果、MI 250x+ROCm 5と比較した場合、MI300X+ROCm 6は8倍高速になるとしている(Photo11)。こうした結果、例えばSingle GPUのInferenceでInstinct MI300XはH100より20% Latencyを削減できたとしている(Photo11)。

Photo08: それでもかなり健闘したとは言えるのだろうが。

Photo09: なぜかVictor Peng氏が登場したが、ポジション(President)を考えるとむしろCTOのPapermaster氏か、SVP, AIのVamsi Boppana氏が出て来るべきでは？とは思った。

Photo10: この数字は、説明からするとROCm 5.xとの比較と思われる(直接「何と比べて」2.6倍か、は語られなかった)。

Photo11: もっともこの8倍のうち、FP8のサポートを追加した分が2倍になるし、MI250XとMI300Xの性能差そのものもある事を考えると、ROCm 6がROCm 5からどの程度改善されたか？というのは微妙な感じもある。

Photo12: これはパラメータ数130億個のLlama2モデルを実行した場合の数値。

このInstinct MI300、Dell/SuperMicro/Lenovoの各社が搭載製品を出すことをアナウンスした。

Photo13: DellはPowerEdge 9680にInstinct MI300X搭載モデルを本日より追加。

Photo14: SuperMicroはMI300X搭載の水冷モデルと空冷モデルを用意。空冷モデルは40～50KWに対応するが、同社のdeeper cooler Decatureを搭載する水冷モデルは80～100KWの消費電力に対応可能とのこと。

Photo15: LenovoはSC-455 Think EdgeにInstinct MI300X搭載モデルを用意。

Instinct MI300A

Photo16: CCD用のIODにも64MBのInfinity Cacheが搭載されることがここからも明らかである。

次はData Center APUであるInstinct MI300Aについて。こちらも構造は以前のレポートでご紹介した通りで、4つのIODの上に6つのXCDと3つのCCD、それとHBM3が8 Stack搭載される。XCDはトータル228XCUで、やはり1XCDあたり38XCUという構成である。まぁ恐らくは物理的には40XCUで、うち2XCUが冗長用になっているものと思われる。一方CCDの方は、もう物理的にRyzen 7000シリーズやEPYC 9004シリーズと同じダイだと以前説明があり、こちらは3 CCDで24コア。そしてHBMの方は1 Stackあたり16GBのものが利用されるので、トータル128GBとなる。こちらもあまり詳細は語られなかったが、H100と比較しても1.6倍の性能とメモリ帯域を持ち、FP16はともかくFP64/FP32ではH100を凌ぐ性能を発揮するとする。特にOpenFOAMではH100比4倍の性能であり(Photo18)、Grace Hopperと比較しても2倍の性能/消費電力比であるとしている(Photo19)。絶対性能の開示などはなされなかったが、この辺は追々公開されることになるだろう。そしてEl CapitanがこのInstinct MI300Aをベースに構築されることが改めて公開された(Photo20,21)。既に設置工事は進んでいるとされる(Photo22)。ちなみにEl Caputanの構築の様子は先月LLNLも動画を出しており、2024年の運用開始に向けて順調に作業が進んでいる事を伺わせる。このMI300Aは、OEM/Solution partnerとしてHPEとEVIDEN/GIGABYTE/SuperMicroの名前が挙がっている(Photo23)。

Photo17: Instinct MI300AがEl Capitan向けである事を考えればこれは当然ともいえる。まぁそれを言えばFrontier向けのInstinct MI250Xも同じで、FP16とかFP8などのAI向けよりも、FP32/64の性能の方がまだ重視されるのだが。

Photo18: H100の方の構成がどんなものか、も関係してきそうではあるが。

Photo19: GH200はカタログスペックで最大1000Wとされているが、さてInstinct MI300Aは消費電力が何Wで設定されているのだろう？

Photo20: これはまだCGであって、実写ではない模様。

Photo21: こちらを見るとシャーシあたり4つのInstinct MI300Aが搭載されており、以前のLLNLのスライドとちょっと矛盾する。見ての通りのCGなので、イメージ画像で実際の製品とは異なります、というあたりなのかもしれない。

Photo22: こちらはAMDがやはり本日公開した"AMD and HPE Power El Capitan Exascale-Level Supercomputer for AI-Driven Research"という動画より。同じHPEが携わっている事もあり、冷却システムとか電源システムがAuroraと一緒である。