COOL Chips 22 - NECのSX-Aurora TSUBASAスパコン(3) SX-Aurora TSUBASAのベンチマーク性能

LLCはwrite backキャッシュで、L1、L2の上位のキャッシュに存在するすべての情報を持つインクルーシブなキャッシュになっている。LLCの容量は16MBで128バンクになっており、総バンド幅は3TB/sである。

LLCは16MBで128バンク構成で3TB/sのバンド幅を持つ

製品のラインアップとしては、A500、A300、A100の3ラインがあり、A500は水冷の大型ベクタスパコン、A300は空冷のラックマウント型、A100はプログラム開発などに使うデスクサイドのタワー型のマシンである。

大型スパコンのA500、ラックマウント型のA300、デスクサイドのタワー型のA100の3系統の製品がある。A500は水冷、A300とA100は空冷である

A300-8の構成は次の図のようになっており、片側のXeonに2個のPCIeスイッチをつけ、それぞれのPCIeスイッチに3個のベクタエンジンと2つのIBコントローラをつけている。

大規模スパコン用のA500も、水冷である点を除けば、このA300-8とほぼ同じに見えるサーバを1本のラックに8台収容している。

1つのVEの中の8個のベクタコアはL2キャッシュやHBM2を共用しているので、高速のデータのやり取りができるのであるが、隣のVEとデータをやり取りする場合は、PCIeスイッチを経由することになる。そして、反対側のPCIeスイッチにつながったVEとのデータのやり取りは2つのPCIeスイッチを経由し、さらにXeonのPCIeポートを経由することになる。これらのパスはバンド幅がPCIeやその他の部分で制約され、HBM経由と比べて1桁バンド幅が小さくなると思われる。離れた位置のVE間で大量のデータをやり取りするアプリケーションでは、この部分が性能のネックになるのではないかと思われる。

また、3個のVEに対してIB NICは2個であり、VE単位の仕事に対してNICの使い分けがどうなっているのかは分からない。

8VEのA300-8サーバでは一方のXeonに2個のPCIeスイッチを付け、それぞれのPCIeスイッチに3個のVEと2個のIB NICを付けるという構成になっている

次の図はAuroraとIntelのSkylake、Knights Landing、それにNVIDIAのV100 GPUのシステムのHPLとStreamの性能を比較したものである。HPLではAuroraはXeon 6148(Skylake SKL:20コア、2.4GHzクロック)×2とほぼ同等であるが、演算器の多いVolta 100 GPUと比べると半分弱の性能である。しかし、メモリバンド幅の効くStreamではAuroraが強く、Voltaより40%程度高い性能となっている。

演算性能とメモリバンド幅を測るHPLとStreamで、Aurora、IntelのSkylake、Knights Landing、そしてNVIDIAのV100 GPUの性能を比較している。AuroraはHPLではSkylakeと同程度で、V100の半分以下の性能であるが、StreamではV100より40%高い性能となっている

次の図はAuroraとSkylakeの性能と性能/電力をHPCGベンチマークで比較したもので、メモリアクセスの多いHPCGではAuroraはSKLの2.5倍の性能で、HPCG/Wでは7倍の性能となっている。

メモリアクセスの多いHPCGでの性能と性能/電力のSkylakeとの比較。HPCG性能では2.5倍、HPCG/Wでは7倍の性能となっている

NASパラレルベンチマークではAuroraの性能はSKLより15%～70%性能が高く、性能/電力では2倍～2.7倍の性能となっている。

マシンラーニングの実アプリケーションでは、ヨーロッパの金融オプションの値付け、CTスキャン画像の生成、マルウェアの検出の3つのケースでXeon 6126との性能を比較している。

モンテカルロ法によるヨーロッパのオプションの値付けのケースでは、AuroraはXeon 6126と比較してトレーニングの時間は3.3倍短く、スループットは4.7倍となった。

モンテカルロ法を使うヨーロッパのオプションの値付けのアプリケーションでは、Xeon 6216と比べて1コアでの学習はAuroraは3.3倍速く、両チップともに全コアを使った場合は4.7倍速い

モデルベースのCTスキャンの画像生成でのXeon 6126との比較では、Auroraはコアあたりでは7.1倍速く、チップ当たりでは3.9倍は速いという結果である。

CT画像の生成では、AuroraはXeon 6216と比べて、コア当たりでは7.1倍速く、全コアを使った場合は3.9倍速い

アプリケーションのバイナリをスキャンしてマルウェアの存在を検出するというケースでは、Xeon 6126と1コア動作の比較で、トレーニングでは3.7倍速く、チップの全コアを使ったトレーニングのスループットでは、Auroraが2.5倍速いという結果になった。

しかし、マシンラーニングの処理でなぜAuroraがXeonより数倍速いのかは良く分からない。

アプリケーションのバイナリをスキャンしてマルウェアを検出する場合の1コアでの学習と全コアでの学習の性能。Xeon 6216と比較してAuroraは1コアでは3.7倍速く、全コアでは2.5倍速い

まとめであるが、SX-Aurora TSUBASAスパコンはAuroraアーキテクチャに基づくNECの新ベクタスパコンである。従来のベクタスパコンと異なり、x86/Linux環境でベクタプロセサを使うことができるようになっている。そして、VE 1個のデスクサイドから、水冷の大型のスパコンまでフレキシブルな構成が可能になっている。

ベクタエンジンは、6個のHBM2を使い、高いメモリバンド幅をもっている。また、マイクロアーキテクチャの改善で、高い連続実行性能と高い電力効率を実現している。

x86/Linuxという標準の環境で、非常に競争力の高い性能と電力効率を実現している。また、マシンラーニングの実アプリケーションでも非常に高い性能を持っている。

Auroraアーキテクチャの新スパコンは、x86/Linux環境で使えるベクタスパコンである。HBM2を使った高いメモリバンド幅を持つ。ベンチマークや実アプリでも非常に高い性能を持つ

確かにAurora TSUBASAはXeon 2ソケットより性能が高いとしても、お値段がどうなるのかが問題である。IntelのハイエンドXeonも数1000ドルから最高では1万ドル程度と安くはないが、NECのベクタエンジンチップはいくらであろうか。値段あたりの性能でIntelのXeonを凌駕し、AMDのRomeなどとも競争できる性能/価格になれば面白い。