MLCommonsはAI Training/Inferenceの性能を比較するMLPerf v1.1の結果を9月22日に公開した。MLPerfは当然主要なAI Processorベンダーが実施しており、その結果はオンラインで参照可能であるが、Cloud AI A100の結果についてQualcomm自身から説明があったので、その内容をご紹介したい。
そもそもCloud AI 100そのものは2018年頃から名前だけがちらちら出てきており、2019年9月に製品発表が行われたものの、この時点ではまだ開発キットがリリースされたという状況であった。
またアーキテクチャの詳細などについて説明はなく、Dual M.2e/Dual M.2/PCIeという3種類のフォームファクタが用意され(Photo01)、競合製品と比較しても十分に性能/消費電力比が高い(Photo02,03)とされた。
またカードタイプのソリューション以外に、Edge IoT向け開発キット(Photo04)も用意されるとした。ちなみにこの時点での情報では、Cloud AI 100チップそのものはサンプル出荷を開始しており、量産開始は2021年前半。また開発キットは2020年10月に出荷開始とされていた。
次の情報は2021年4月に開催されたLinley Spring Processor Forum 2021ででてきた。相変わらず内部構造の詳細などは語られないままであったが、単にEdgeのみならずServer向けでも利用できる(Photo05)ことや、同社の提供するソフトウェアフレームワーク(Photo06)が紹介された。
次は2021年8月のHotChips 33である。多分HotChips 33におけるCloud AI 100の詳細はいずれ安藤先生が説明して下さると思うので要点だけまとめると、全体の構造(Photo07)やAI Coreの構造(Photo08)に加え、実際のチップによる性能や消費電力(Photo09)、いくつかのベンチマークの結果(Photo10)やその分析(Photo11,12)が示されている。
ということで今回の発表である。MLPerfそのものの説明はこちらにあるので御覧いただくのが早い。ただこちらの説明では、Training 1.1が先にSubmissionされ、そのあとInference 1.1がSubmissionされるはずだったのだが、MLPerf v1.1のInferenceはこちらでソースが公開されているのにTrainingはまだのようで、公開もInferenceが先になったようだ。
さてその結果であるが、Qualcommは今回82のベンチマーク結果をSubmitしており、うち36では消費電力も含めた結果をSubmitしているとする(Photo13)。またMLPerf 1.0に関しても、公開はされていないのだがSubmitはしていたようで、その結果としてMLPerf 1.0 auditにおいて“interesting submission”で2位を獲得した、としている。
さて、肝心のInferenceの結果である。これ(Photo14)はResNet-50の結果であるが、「消費電力当たりのInference性能」で、Cloud AI 100がNVIDIAのA100を圧倒している、としている。
これはEdge Device/Edge Serverの両方で実現できる、というのが同社の説明である(Photo15)。
もう少し詳細な数字はこちら(Photo16)。
このままだと比較対象が無いのでどの程度すごいのかが判り難いが、この記事が公開される頃にはMLPerf 1.1の結果が公開されているはずなので、それを見ていただくのが良いだろう。
こちらの数字はDataCenter向けのResNet-50のOfflineにおける性能比較で、ピーク性能そのものもいい勝負になるとしており(Photo17)、またCloud AI 100は枚数に応じて比較的スケーラブルに性能が伸びる、としている(Photo18)。
Photo19はDatacenter向けの結果をまとめたものだが、性能もさることながら2KW未満(カード8枚なら1KW未満)の電力で稼働する点を強調しているのが判る。
競合製品との比較をまとめたのがこちら(Photo20)で、絶対性能としても競合製品を上回るとしている。
一方、性能/Latencyの比較を行ったのがこちら(Photo21)。
Edge向けではLatencyが結構大きな問題になることが多く、また消費電力も厳しい訳で、競合というかNVIDIAの製品に比べてずっと優れているとしている。一方Server Workload向けのBERT 99の場合の結果を比較したのがこちら(Photo22)。
絶対性能そのものではやはりBERT99に代表されるNLPはちょっと厳しい様で、それもあってNVIDIA A100に比べてアドバンテージがあるとはちょっと言いにくい結果ではあるが、大きく劣っているとも言えない、割と拮抗するレベルの性能/消費電力比だけに、あとは導入の価格次第では勝負もできるのかもしれない。
ちなみに当然Qualcomm以外のメーカーもMLPerf 1.1の結果をSubmitしているわけで、この記事の公開時にはそうした結果も出てくる事になるだろう。NVIDIAも例えばフレームワークを改良するなどして、今回Qualcommが示した数字よりも良い結果が出てくるかもしれない。そのあたりはまた改めて比較してみる事になるだろう(しかも敵はNVIDIAだけではない訳で、なかなか楽しい事になりそうだ)。