ISC 2015に見る今後のスーパーコンピューティングの方向性(12) 将来のノードアーキテクチャはどうなるのか(6)

ARMはバランス、柔軟性とパートナシップが重要と主張

ARMのシニアプリンシパル研究者のEric van Hensbergen氏は、バランス、柔軟性とパートナシップがExascaleのノードアーキテクチャとして重要であるという。

図4.30 ISC 2015で発表するARMのEric van Hensbergen氏

Hensbergen氏は、Exascaleの挑戦は電力効率の改善であるという。図4.31はTOP500でのMFlops/Wの推移を示すグラフである。1位のシステムはこの5回、天河2号で変わっていないので、1位の電力効率の線はフラットであるが、最高の電力効率のシステムと全500システムの平均値の線は、確実に上がってきている。

図4.31 TOP500のMFlops/Wの推移。右端で見て、上からMAX、Top1システム、AVE、MIN、500位のシステムのMFlops/W。なぜ、MINが#500より上なのかは不明 (以下の図の出典は、ISC 2015におけるHensbergen氏の発表スライドである)

ARMコアは低消費電力でチップ面積も小さい

電力効率やチップ面積あたりのスループットは、元々、携帯機器用など省電力の機器にフォーカスしていたARMが強みを発揮する分野である。

次の図4.32は4種のCPUのSPEC2006 rateベンチマークの結果を示すもので、Xeon-E5 2660v3の性能を1.0とすると、Xeon-E5 2650 v3は0.85程度、2.5GHzクロックのARM Cortex-A57は0.78程度、2.7GHzクロックのCortex-A72は0.96程度の性能となっている。しかし、2種のXeonが105Wの電力であるのに対して、2種のARMコアは30W以下とXeonと比べると30%以下の電力である。

ただし、Xeonの電力はIntelの言うTDPであり、製品として保証する最大電力値であり、個々の製品ではこれより少ないことが普通である。これに対してARMの方は、この電力は実測ではなくシミュレーションに基づくものであるので、20コアとL2、L3キャッシュとCCN-508は含んでいるが、DRAM I/F、PCI Express、QPI相当のインタコネクトなどがどうなっているのかは不明である。また、シミュレーションは定格の最大値ではなく、Type値ではないかと思われる。

図4.32 チップ面積あたり、消費電力あたりのスループットの最大化。ほぼ同じ性能で、ARMCortex-A57やA72コアは30%以下の消費電力

Intelの14nmプロセスを使うBroadwellコアと256KBのL2キャッシュの面積は約8mm²である。これに対してTSMCの16FF+プロセスでレイアウトしたCortex-A72コアは、～1.15mm²と20%以下の面積となっている。そして、Cortex-A72 4コアに2MBのL2キャッシュを付けても約8mm²と、Broadwell 1コアと同じ面積に収まる。つまり、チップ面積あたりの性能は4倍に近い。

図4.33 ARMのCortex-A72コアとIntelのBroadwellコアの比較

EUのMont-Blancプロジェクトでは、欧州のアーキテクチャであるARMプロセサを使ってエネルギー効率の高いスパコンシステムの開発を進めている。そして、現在、8台のBullXシャシーに1080枚のブレードサーバを収容したプロトタイプが動作しているという状態である。そして、11のアプリケーションがこのマシンに移植され、プロトタイプの評価が行われているという。

図4.34 EUのMont-BlancプロジェクトはARMコアベースのスパコンを開発

また、英国のHartreeセンターでは消費エネルギーを最小化する研究が行われており、6UのシャシーにCaviumのThunderXを1152コア搭載するシステムを設置中である。

図4.35 英国のHartree CentreではARMコアを使うCaviumのThunderXベースのシステムを構築中