ARMはバランス、柔軟性とパートナシップが重要と主張
ARMのシニアプリンシパル研究者のEric van Hensbergen氏は、バランス、柔軟性とパートナシップがExascaleのノードアーキテクチャとして重要であるという。
Hensbergen氏は、Exascaleの挑戦は電力効率の改善であるという。図4.31はTOP500でのMFlops/Wの推移を示すグラフである。1位のシステムはこの5回、天河2号で変わっていないので、1位の電力効率の線はフラットであるが、最高の電力効率のシステムと全500システムの平均値の線は、確実に上がってきている。
図4.31 TOP500のMFlops/Wの推移。右端で見て、上からMAX、Top1システム、AVE、MIN、500位のシステムのMFlops/W。なぜ、MINが#500より上なのかは不明 (以下の図の出典は、ISC 2015におけるHensbergen氏の発表スライドである) |
ARMコアは低消費電力でチップ面積も小さい
電力効率やチップ面積あたりのスループットは、元々、携帯機器用など省電力の機器にフォーカスしていたARMが強みを発揮する分野である。
次の図4.32は4種のCPUのSPEC2006 rateベンチマークの結果を示すもので、Xeon-E5 2660v3の性能を1.0とすると、Xeon-E5 2650 v3は0.85程度、2.5GHzクロックのARM Cortex-A57は0.78程度、2.7GHzクロックのCortex-A72は0.96程度の性能となっている。しかし、2種のXeonが105Wの電力であるのに対して、2種のARMコアは30W以下とXeonと比べると30%以下の電力である。
ただし、Xeonの電力はIntelの言うTDPであり、製品として保証する最大電力値であり、個々の製品ではこれより少ないことが普通である。これに対してARMの方は、この電力は実測ではなくシミュレーションに基づくものであるので、20コアとL2、L3キャッシュとCCN-508は含んでいるが、DRAM I/F、PCI Express、QPI相当のインタコネクトなどがどうなっているのかは不明である。また、シミュレーションは定格の最大値ではなく、Type値ではないかと思われる。
Intelの14nmプロセスを使うBroadwellコアと256KBのL2キャッシュの面積は約8mm2である。これに対してTSMCの16FF+プロセスでレイアウトしたCortex-A72コアは、~1.15mm2と20%以下の面積となっている。そして、Cortex-A72 4コアに2MBのL2キャッシュを付けても約8mm2と、Broadwell 1コアと同じ面積に収まる。つまり、チップ面積あたりの性能は4倍に近い。
EUのMont-Blancプロジェクトでは、欧州のアーキテクチャであるARMプロセサを使ってエネルギー効率の高いスパコンシステムの開発を進めている。そして、現在、8台のBullXシャシーに1080枚のブレードサーバを収容したプロトタイプが動作しているという状態である。そして、11のアプリケーションがこのマシンに移植され、プロトタイプの評価が行われているという。
また、英国のHartreeセンターでは消費エネルギーを最小化する研究が行われており、6UのシャシーにCaviumのThunderXを1152コア搭載するシステムを設置中である。