LLCはwrite backキャッシュで、L1、L2の上位のキャッシュに存在するすべての情報を持つインクルーシブなキャッシュになっている。LLCの容量は16MBで128バンクになっており、総バンド幅は3TB/sである。
製品のラインアップとしては、A500、A300、A100の3ラインがあり、A500は水冷の大型ベクタスパコン、A300は空冷のラックマウント型、A100はプログラム開発などに使うデスクサイドのタワー型のマシンである。
A300-8の構成は次の図のようになっており、片側のXeonに2個のPCIeスイッチをつけ、それぞれのPCIeスイッチに3個のベクタエンジンと2つのIBコントローラをつけている。
大規模スパコン用のA500も、水冷である点を除けば、このA300-8とほぼ同じに見えるサーバを1本のラックに8台収容している。
1つのVEの中の8個のベクタコアはL2キャッシュやHBM2を共用しているので、高速のデータのやり取りができるのであるが、隣のVEとデータをやり取りする場合は、PCIeスイッチを経由することになる。そして、反対側のPCIeスイッチにつながったVEとのデータのやり取りは2つのPCIeスイッチを経由し、さらにXeonのPCIeポートを経由することになる。これらのパスはバンド幅がPCIeやその他の部分で制約され、HBM経由と比べて1桁バンド幅が小さくなると思われる。離れた位置のVE間で大量のデータをやり取りするアプリケーションでは、この部分が性能のネックになるのではないかと思われる。
また、3個のVEに対してIB NICは2個であり、VE単位の仕事に対してNICの使い分けがどうなっているのかは分からない。
次の図はAuroraとIntelのSkylake、Knights Landing、それにNVIDIAのV100 GPUのシステムのHPLとStreamの性能を比較したものである。HPLではAuroraはXeon 6148(Skylake SKL:20コア、2.4GHzクロック)×2とほぼ同等であるが、演算器の多いVolta 100 GPUと比べると半分弱の性能である。しかし、メモリバンド幅の効くStreamではAuroraが強く、Voltaより40%程度高い性能となっている。
次の図はAuroraとSkylakeの性能と性能/電力をHPCGベンチマークで比較したもので、メモリアクセスの多いHPCGではAuroraはSKLの2.5倍の性能で、HPCG/Wでは7倍の性能となっている。
NASパラレルベンチマークではAuroraの性能はSKLより15%~70%性能が高く、性能/電力では2倍~2.7倍の性能となっている。
マシンラーニングの実アプリケーションでは、ヨーロッパの金融オプションの値付け、CTスキャン画像の生成、マルウェアの検出の3つのケースでXeon 6126との性能を比較している。
モンテカルロ法によるヨーロッパのオプションの値付けのケースでは、AuroraはXeon 6126と比較してトレーニングの時間は3.3倍短く、スループットは4.7倍となった。
モデルベースのCTスキャンの画像生成でのXeon 6126との比較では、Auroraはコアあたりでは7.1倍速く、チップ当たりでは3.9倍は速いという結果である。
アプリケーションのバイナリをスキャンしてマルウェアの存在を検出するというケースでは、Xeon 6126と1コア動作の比較で、トレーニングでは3.7倍速く、チップの全コアを使ったトレーニングのスループットでは、Auroraが2.5倍速いという結果になった。
しかし、マシンラーニングの処理でなぜAuroraがXeonより数倍速いのかは良く分からない。
まとめであるが、SX-Aurora TSUBASAスパコンはAuroraアーキテクチャに基づくNECの新ベクタスパコンである。従来のベクタスパコンと異なり、x86/Linux環境でベクタプロセサを使うことができるようになっている。そして、VE 1個のデスクサイドから、水冷の大型のスパコンまでフレキシブルな構成が可能になっている。
ベクタエンジンは、6個のHBM2を使い、高いメモリバンド幅をもっている。また、マイクロアーキテクチャの改善で、高い連続実行性能と高い電力効率を実現している。
x86/Linuxという標準の環境で、非常に競争力の高い性能と電力効率を実現している。また、マシンラーニングの実アプリケーションでも非常に高い性能を持っている。
確かにAurora TSUBASAはXeon 2ソケットより性能が高いとしても、お値段がどうなるのかが問題である。IntelのハイエンドXeonも数1000ドルから最高では1万ドル程度と安くはないが、NECのベクタエンジンチップはいくらであろうか。値段あたりの性能でIntelのXeonを凌駕し、AMDのRomeなどとも競争できる性能/価格になれば面白い。