既報の通り、AMDは"Advancing AI"イベントを開催、AMD Instinct MI300X/MI300Aに関する詳細とRyzen 8040シリーズについて説明を行った。このうちRyzen 8040シリーズに関しては、少なくともイベントの中での説明は既報のものと変わらないというか特に新しい情報は無かったので、AMD Instinct MI300X/MI300Aについてのみ追加でレポートしたい。
AMD Instinct MI300X/MI300Aについては、「ある程度」の詳細レポートを6月にお届けしているので、ここからのUpdateということになる。もっとも現状は(後述の様に)あくまでもサンプル出荷のレベルとあって、同社の仕様一覧ページにもまだInstinct MI300X/MI300Aは上がっていない。
Instinct MI300X
さてまずはInstinct MI300Xについて。4つのIODの上に8つのXCDが搭載され、更に8つのHBM3 Stackが実装されるという構造そのものは以前ご紹介した通りであるが、
- IODには合計で256MBのInfinity Cacheが搭載される。つまりIODあたり64MBとなる。
- XCDは合計で304CUであり、つまり1個のXCDあたり38XCUという計算になる。
- HBM3に関しては特に違い無し。
といったあたりだ。動作周波数は相変わらず未公開のままだが、性能に関してはFP16で1.3PFlops、FP8で2.6PFlopsと説明された。もしCDNA 3がRDNA系統と同じくCDNA 2の2倍の演算性能だと仮定すると、XCUあたりの演算性能はFP16で2048演算/cycleとなる。つまり8XCD=304XCUで1622592Flops/cycleなので、動作周波数は2GHz位になる計算である。これはちょっと高すぎる気もしなくはないが、実現不可能という訳でもない。あと気になるのは、AMD Instinct MI200シリーズの場合FP8は未サポートだったがInt 8だとやはり1024演算/cycleだったことで、Instinct MI300XがFP8で演算性能倍増というあたりは、内部構造にだいぶ手が入っている気がする。あるいは、ダイサイズから考えるとXCUあたりの演算性能はCDNA 3の4倍で、動作周波数は1GHzというあたりなのかもしれない。
またHBM3に関しては本来だとpinあたり6.4Gbpsなので、1024bit幅で819.2GB/sec。これが8つで6.55TB/secになる計算だが、5.3TB/secということはpinあたり5.1~5.2Gbpsまで信号速度を落として接続していることになる。歩留まり、あるいは消費電力との兼ね合いなのか、それともCDNA3コアが必要とする帯域に合わせたのか、は不明である。
そんなInstinct MI300Xであるが、今回はもう少し具体的に性能比較も示された。まずこちら(Photo02)は、LLM KernelのスループットをH100と比較したものである。次がTrainingのパフォーマンス(Photo03)で、これはH100と同等。そしてInferenceでは1.4~1.6倍高速(Photo04)とされた。このInstinct MI300Xを8つ搭載したシャーシ(Photo05)とH100 HGXを非アックした場合、メモリ量と演算性能で上回っているとアピールした(Photo06)。こちらがそのまとめである(Photo07)。
ただ、物理的というかハードウェア的にH100を上回ったスペックでも、ソフトウェアの対応が遅れているのがAMDというかNVIDIA以外の問題であった。例えばAMDはNVIDIA用に記述されたLLMを、MosaicMLと共同でPyTorch 2.0とROCm 5.4を利用してInstinct MI250に移植したが、性能はこんな感じ(Photo08)でMI250はA100-40GBにも及ばない程度の性能しか出なかった。これに対する回答がROCm 6である(Photo09)。ROCm 6は特に生成AIの性能改善に注力したとしており(Photo10)、結果、MI 250x+ROCm 5と比較した場合、MI300X+ROCm 6は8倍高速になるとしている(Photo11)。こうした結果、例えばSingle GPUのInferenceでInstinct MI300XはH100より20% Latencyを削減できたとしている(Photo11)。
このInstinct MI300、Dell/SuperMicro/Lenovoの各社が搭載製品を出すことをアナウンスした。
Instinct MI300A
次はData Center APUであるInstinct MI300Aについて。こちらも構造は以前のレポートでご紹介した通りで、4つのIODの上に6つのXCDと3つのCCD、それとHBM3が8 Stack搭載される。XCDはトータル228XCUで、やはり1XCDあたり38XCUという構成である。まぁ恐らくは物理的には40XCUで、うち2XCUが冗長用になっているものと思われる。一方CCDの方は、もう物理的にRyzen 7000シリーズやEPYC 9004シリーズと同じダイだと以前説明があり、こちらは3 CCDで24コア。そしてHBMの方は1 Stackあたり16GBのものが利用されるので、トータル128GBとなる。こちらもあまり詳細は語られなかったが、H100と比較しても1.6倍の性能とメモリ帯域を持ち、FP16はともかくFP64/FP32ではH100を凌ぐ性能を発揮するとする。特にOpenFOAMではH100比4倍の性能であり(Photo18)、Grace Hopperと比較しても2倍の性能/消費電力比であるとしている(Photo19)。絶対性能の開示などはなされなかったが、この辺は追々公開されることになるだろう。そしてEl CapitanがこのInstinct MI300Aをベースに構築されることが改めて公開された(Photo20,21)。既に設置工事は進んでいるとされる(Photo22)。ちなみにEl Caputanの構築の様子は先月LLNLも動画を出しており、2024年の運用開始に向けて順調に作業が進んでいる事を伺わせる。このMI300Aは、OEM/Solution partnerとしてHPEとEVIDEN/GIGABYTE/SuperMicroの名前が挙がっている(Photo23)。
Instinct MI300Xに関しては、本日よりMicrosoft AzureのVMのPreviewが開始されるほか、DellはInstinct MI300X搭載モデルの受注を開始している。そしてInstinct MI300Aの方は「まもなく」パートナーより提供が開始される予定との事であった。