前編はコチラ

市民権を得たアクセラレータの活用

次の図はアクセラレータを使っているシステム数の年次推移を示している。このグラフではXeon Phi Mainのシステムもアクセラレータ使用と数えているので、今回のリストのTop10の内の8システムがアクセラレータを使っており、Top500の中では約25%のシステムがアクセラレータを使っているという結果である。

これは、汎用CPUだけではなく、演算性能を引き上げるアクセラレータを付けるという構成が一般化し、市民権を得たと言える。そして、現実に使われているアクセラレータの75%程度がNVIDIAのGPUとなっている。

また、Top10の内でアクセラレータ無しに分類されているのは、SW26010を使う太湖之光とBlueGene/Qを使うSequoiaだけである。SW26010はCPUとアクセラレータを1チップに集積しており、BlueGene/Qは小さめのCPUコアを多数集積するもので、いわゆる、普通のCPUだけを並べたシステムはTop10の中には存在しない。

  • アクセラレータの品種別の使用システム数の推移

    アクセラレータの品種別の使用システム数の推移。ほぼ順調に伸びており、今回のリストでは25%を超えた。Xeon Phiも20システム程度で使われているが、大部分はNVIDIAのGPUを使っている (出典:このレポートのすべての図は、ISC 2018におけるErick Strohmaier氏の講演資料をコピーしたものである)

アクセラレータの性能シェアを次の図に示す。2015年11月のリストでアクセラレータ付きのシステムの性能シェアが急に減っているが、これは太湖之光がTop500リストに入って性能の総量が急増したからである。太湖之光のSW26010プロセサは4コアのマネジメントコアと256コアに計算コアを集積するチップで、CPU機能を持っているのでアクセアラレータではないともいえるが、256個に計算コアが付いているので、アクセラレータ付きのシステムともいえる。

筆者はアクセラレータ付きに分類する方が良いと思うが、Top500ではアクセラレータ無しに分類されているので、2015年11月にアクセラレータ付きシステムの性能シェアが下がっている。

  • Top500におけるアクセラレータの性能シェアの年次推移

    Top500におけるアクセラレータの性能シェアの年次推移。2015年にシェアが下がっているのは、太湖之光が入って全体の性能が大きく上がったからである

Green500に見るエネルギー効率の変遷

次の表は、Top500のスパコンをエネルギー効率でランキングするGreen500の上位10システムを表にしたものである。1位は、理研の情報基盤センターに設置されたExaScalerのShoubu System-Bで、エネルギー効率は18.4GFlops/Wである。20MWで1ExaFlopsという米国のエクサスケールマシンのターゲットは50GFlops/Wであり、この目標の1/3程度のところまで来ていることになる。2位は高エネルギー加速器研究機構に設置されたSuiren2、3位はPEZY社内に設置されたSakuraで、PEZY/ExaScalerのシステムが、2017年11月版に引き続いてトップ3システムを独占した。

4位はNVIDIAのDGX SaturnVで、5位にSummitがランクインしている。Top500首位の超大型スパコンでGreen500 5位の獲得は立派である。

そして、7位に東工大のTSUBAME3.0、8位に産総研のAIクラウド、9位に産総研のAI Bridging Cloud Infrastructure(ABCI)が入っている。ABCIは日本では最大のシステムであり、このシステムのGreen500 9位も立派である。

  • HPL性能を消費電力で割ったGFlops/W性能でランキングするGreen500のトップ10システムのリスト

    HPL性能を消費電力で割ったGFlops/W性能でランキングするGreen500のトップ10システムのリスト。1位は18.4GFlops/Wを達成した理研のShoubu System-B。Top500首位のSummitも13.9GFlops/Wで5位を獲得

次の図は、歴代のGreen500首位のシステムのエネルギー効率をプロットしたものである。下の方の小さなひし形のプロットはTop500の平均のエネルギー効率を示すもので、TSUBAME3.0やZettaScaler-2.2のようなトップのシステムと比べると、Top500の平均のエネルギー効率は大きな乖離がある。

  • 歴代のGreen500首位のシステムのエネルギー効率(GFlops/W)のプロット

    歴代のGreen500首位のシステムのエネルギー効率(GFlops/W)のプロット。下のひし形はTop500全体のエネルギー効率の平均値のプロットである

HPLと対になるベンチマーク「HPCG」

Top500に使われるHPLはメモリアクセス回数の割には演算回数が多く、高い演算性能を出しやすいプログラムである。しかし、現代のアプリケーションではより複雑なメモリアクセスが必要とされ、HPLは現代のアプリケーションの特性を表していないという意見が強くなってきている。

このために開発されたのが、疎な係数行列の巨大連立1次方程式を反復法で解くHPCGベンチマークである。HPCGはランダム性の高いメモリアクセスの性能が効くプログラムで、高い演算性能を出すことは難しく、演算性能という点ではHPLの対極にあるベンチマークプログラムである。Top500を主宰するDongarra先生は、一般のアプリケーションの性能は両者の間に入るという点で、HPLとHPCGはブックエンドの両端と言っている。

次の表は、HPCGベンチマークのトップ10システムをリストしたものである。HPCGベンチマークの首位は、2.9258PFlopsを達成したSummitが獲得した。2位は1.7957PFlopsを達成したSierraである。この2システムが、初めて1PFlopsを超えるHPCG性能を実現した。これらのシステムではHPCG性能/HPL性能は2.4-2.5%となっている。

そして、3位は京コンピュータで、HPLでは2位の太湖之光は6位となっている。京コンピュータのHPCG/HPLは5.7%、太湖の光は0.5%と、このリストの最大と最小の値となっている。

これは、SummitやSierraはHPL性能だけに偏らないバランスの取れたマシンであることを示している。また、2011年の登場から7年を経過した京コンピュータもバランスの取れた良い設計であったと言える。

  • 現在のアプリケーションのパターンに近いメモリアクセスを行うHPCGベンチマークのトップ10システム

    現在のアプリケーションのパターンに近いメモリアクセスを行うHPCGベンチマークのトップ10システム。1位はSummit、2位はSierraで、POWER9+V100のシステムが上位を占めた

ISC18でのTop500の最大のハイライトはSummitの1位獲得

Strohmaier氏は、ISC18でのTop500のハイライトは、Summitが新たな1位システムになったこと、Top5に4台の新スパコンが登場したことを挙げている。そして、2013年以降の性能向上の鈍化は、システムの更新期間の長期化と巨大システムへの性能の集中が原因であると分析した。

Lenovoは中国に20システム、米国に21システム、その他の地域(Rest of World)に23システムと中国以外にも販売することに成功した初めての中国メーカーとなったと述べた。実際、LenovoはイタリアのCINECAにTop500 18位のシステム、スペインに22位のMareNostrumを販売しているため、この発言自体は正しいが、中国国内、欧米への販売の大部分はCloud ProviderとかHosting Services向けとなっており、筆者としては少し疑問符の付くコメントである。

技術動向としては、アクセラレータ付きのシステムが25%を超え、産業界のユーザにも受け入れられたという点と、SummitとSierraが、HPCGで初めて1PFlopsを超えるシステムとなった点をあげた。

  • ISC18でのTop500のハイライト

    ISC18でのTop500のハイライト。Summitが1位を奪還し、今回はトップ5システムのうちの4システムが入れ替わった