昨年までは、TOP500はHPLで最高性能を出せる測定を行い、Green500はHPL性能は下がっても、性能/電力が改善する低めの電源電圧に変更して測定するということが行われていた。これが、今年の6月から、TOP500とGreen500のルールが変わり、両方とも同じ条件で測定することになった。

電源電圧を変えて測定するのは実験システムでは可能であるが、製品スパコンでは難しい。また、電源電圧やクロック周波数を変えて測定するのは、手間もかかる。従って、TOP500と同じ条件で測定するというルールは測定の手間を省き、電源電圧を変えられるシステムと実際問題として変えられない製品スパコンとのGreen500ランキング上の不公平を解消することにもなっている。

2016年6月にTOP500とGreen500は性能と電力の測定条件を統一した (このレポートのすべての図は、SC16でのGreen500の発表スライドを撮影したものである)

一方、TOP500と同じ測定ということになると、Green500のランキングは、単にTOP500のリストをHPL性能/電力でソートしたものという見方もできる。しかし、性能/電力でソートしたリストを公開し、上位のシステムを表彰することは、スパコンのエネルギー効率に人々の目を集め、電力効率の重要性をアピールするという点では大きな意義がある。

また、今回の電力の測定法の決定にはGreen500とEEHPCの貢献が大きい。電力測定法の改善や、外気温の違いを含めて、データセンタの冷却電力をどう考えるかなど、電力については、まだ大きな問題が残っており、Green500委員会の活躍の余地は多く残っている。

次の図は、Green500のスパコンのエネルギー効率の推移を示す図で、横軸はそれぞれの回のGreen500である。各回のGreen500のところにある3本のグラフはシステムアーキテクチャの分類で、左からヘテロジニアス、ホモジニアス、全体を示している。

そして、各グラフの上の方にある点は、特に性能(MFlops/W)が高いシステムを表し、幅広の部分は多分、1シグマ、直線の棒は2シグマとかを表しているのであろう。幅広の部分にある横線は、Meanと思われる。

この図を見ると、ヘテロジニアス(アクセラレータを付けた)システムが、ホモジニアスなシステムに比べて電力効率が高いことが分かる。また、ヘテロなシステムの電力効率は2014年ころに改善が大きい。ホモジニアスなシステムの改善は、それよりも1年程度遅れて始まっている。

Green500が、この改善にどれだけ貢献しているのかを検証することはできないが、電力に注意を向け、電力の測定条件を決めたりしたことはポジティブに働いたことは間違いない。

Green500の登録システムの電力効率の推移

2016年11月のTOP500の上位10システムを次の図に示す。1位はNVIDIAのP100 GPUを使う「SaturnV」、2位はスイスCSCSの、同じくP100 GPUを使う「Piz Daint」システムである。

2016年11月のGreen500の上位10システム。NVIDIAのP100 GPUベースのシステムが1、2位を占めた

3位は理研に設置されているPEZY/ExaScalerの「菖蒲」、4位はTOP500 1位の神威太湖之光である。そして、5位、6位、8位、9位、10位はIntelのXeon Phiを使うシステムとなっている。

Green500 3位の表彰で貰ったGreen 500シャツを持つ理研情報基盤センターの姫野センター長(右)と黒川ユニットリーダー(左)

Green500 1位で表彰されたNVIDIAチーム

1位になったNVIDIAのSaturn Vシステムであるが、NVIDIAのP100 GPUを8基搭載するDGX-1というディープラーニング向けの開発システムを124台使うクラスタである。

DGX-1は次の図の左側のようになっていて、Xeon CPUに4台のP100 GPUが接続された構成を2組持っている。そして、それぞれの4基のGPUはNVLINKで結ばれている。さらに、2組の同じ位置にあるGPUもNVLINKで結ばれるCubeMeshという接続になっている。

DGX-1は左の構成で、P100 GPU間をNVLINKで結び、GPU間で高速にデータのやり取りができるようになっている

そして、2個の20コアのXeon CPUに512TBのDDR4メモリと8TBのSSDが接続されている。

124台のDGX-1はMellanoxの36ポートのEDR InfiniBand(×4構成で100Gbps)スイッチを使って接続され、DGX-1一台に4ポートを使うFat Treeネットワークを構成している。

Saturn Vは124台のDGX-1をEDR InfiniBandで接続している

HPLの実行には、主に高バンド幅のHBM2メモリだけを使って性能を稼いでいる。それでも約16TBのメモリがあるので、このメモリに140万元の連立1次方程式全体を格納して、解いている。右側にあるグラフが実行中の消費電力を示しており、全GPUがビジーなフラットなところでは400kW程度を消費しているが、300秒を超えたあたりから、GPUの動作率が下がっている。これはアクセラレータを使うシステムでは普通の挙動である。

結果として、HPLの性能は3,307GFlopsで、HPLのコアの実行期間の電力の平均値は349.5kWで、電力効率は9,462MFlops/WをマークしてGreen500の1位に輝いている。

HBM2メモリに約140万元の連立1次方程式を格納して、解いている。HPL性能は3,307GFlops、平均電力は349.5kWで、9,462MFlops/Wを達成して1位に輝く

NVIDIAは、オバマ大統領が宣言したガンの防止、診断や治療に関して、10年分の進歩を5年で実現するというCancer Moonshot(宇宙飛行士を月に送るというケネディ大統領の宣言になぞらえている)に参加しており、それを実現するロケットエンジンがこのAIスパコンということで、アポロのロケットエンジンのSaturn Vの名前を付けたという。

NVIDIAは、Saturn Vの画像として次の図を公開したが、このイメージはCGで描かれたもので、本物ではないと言われている。もし、これが本物ではないとすると、偽の画像の公開は百害あって一利なしである。NVIDIAの技術は素晴らしいのであるが、偽チップ写真以来、NVIDIAの絵は、眉に唾を付けて見なければならないのは残念である。

NVIDIAが発表したSaturn Vの画像