中国のエクサプロトタイプ機
次にQian教授は、中国が行なっている3つのエクサスケールのプロトタイプについて説明を行った。プロトタイプ機を作るのは、可能性のあるアーキテクチャや実装技術を探索するためである。Sugon、Tianhe、Sunwayの3つのグループがプロトタイプの開発を行ったという。
Sugonのプロトタイプ機
Sugonのプロトタイプは、x86 CPUとアクセラレータを使うヘテロジニアスな構成をとっている。各ノードは2個のHygon CPUと2個のHygon DCUアクセラレータからなっており、512ノードのプロトタイプは1024個のHygon CPUとHygon DCUで構成される。ノード間は6Dのトーラスインタコネクトで接続される。リンクの速度は200Gbps/Nodeである。プロトタイプのピーク演算性能は3.13PFlopsで、Linpack性能はピークの71.5%の2.27PFlopsとなっている。
なお、次の写真の実装階層は漢字で書かれているが、英文では、左からNode、Super Node、Silicon Unit、Silicon Cubeと呼んでいる。
ノードは2CPUと2DCUで構成され、メモリはDDR4-2667を使っている。メモリ容量は128GBを超える。インタコネクトは200Gbpsの伝送性能を持つ。右側の図ではそれぞれのCPUに8枚のDDR4-2667 DIMMがついているので、各ノードのピークメモリバンド幅は340GB/sという計算になる。そうすると、512ノードのプロトタイプ全体のメモリバンド幅は174TB/sとなり、演算性能は3.18PFlopsであるので、B/F比は0.055となる。
これでは中国の現在の巨大スパコンと同じ程度のB/F比で、メモリバンド幅が重要という考察が反映されたプロトタイプにはなっていない。
なお、Hygon CPUはAMDのZenプロセサベースと言われ、Sugonは米国の輸出禁止リストに載せられてしまったので、入手が可能かといういう問題もある。
Sugonのプロトタイプのインタコネクトは、スーパーノードの内部はフルコネクションで、スーパーノード間をa-b-c軸と呼ぶ3次元のトーラスで接続し、その上位のグローバル接続はX-Y-Z軸と呼ぶ3次元のトーラスで接続している。これは富岳にも使われるTofuインタコネクトと類似のネットワークトポロジである。
Sugonプロトタイプの冷却はImm058と呼ぶクーラントを使う浸漬液冷である。Imm058については情報が無いが、フロリナートに近い絶縁性の液体と思われる。沸点は50℃となっている。Sugonの冷却は、2ノード搭載のプリント板1枚ごとに独立のクーラント槽になっており、バックパネル側にクーラントの供給と排出のコネクタが付いており、プリント板を差し込むとクーラントのコネクタも自動的に接続される。
シリコンユニットは3つのラックがるながったような形状になっており、両側のラックにスーパーノードを収容し、中央のラックには温まったクーラントを冷やす熱交換器などが収容されている。ISC 2019では(エクサプロトタイプではないが同様な冷却系を持つサーバが)1枚のプリント板には通電した状態で展示されており、それほど激しくはないが、ポコポコとクーラントが気化してできた泡が発生していた。
Tianheのプロトタイプ機
Tianhe(天河)のエクサプロトタイプは、Sugonなどと同じ512ノードの規模である。計算エンジンとしては、128コアのメニ―コアプロセサを使っている。512ノードの規模でピーク演算性能は3.14PFlops、Linpack効率は78.5%でSugonプロトタイプよりは少し性能が高い。
プロセサは天河2号に使われたMT-2000の最適化版で、天河2号Aに使われているものである。ピーク演算性能は2.048TFlopsで消費電力は130Wとなっている。そして、電力効率は15GFlops/W以上となっている。計算ノードには3個のMT-2000+が使われ、性能は6TFlops以上と書かれている。右下の図では2個のコアからなるクラスタ4個がルーターを介して接続されており、チップ内は2次元メッシュで接続されていると見られる。
前の説明とは食い違うが、次の図では、4個のCPUからなるノードを3Dのバタフライネットワークで接続している。このネットワークはスケーラブルで、100K以上のノードを接続することができる。そして、システム全体を最大4回のホップで接続することができ、通信遅延が少ないという。ソフトウェアでルーティングをコントロールしており、故障が起こった場合もフォールトトレラントで故障個所を迂回するルーティングを行って動作を続けられる。
Sunwayのプロトタイプ機
Sunwayのプロトタイプも512ノードで、太湖之光と同じSW26010 CPUチップを使っている。ピーク演算性能は3.13PFlopsでLinpack効率は81.51%である。
各ノードは2個のSW26010チップを搭載し4wayのDDR4メモリが接続されている。ピーク演算性能は6.12TFlopsで電力性能は11GFlops/Wとなっている。
そして、256ノードをスーパーノードと呼び、その内部はフルコネクションになっている。リンクの伝送速度は双方向の合計で200Gbpsである。
Sunwayのプロトタイプのインタコネクトは2段のFat-Treeとなっている。図によれば64ポートの自主開発のスイッチを使っているようである。リンクの伝送速度は25Gbpsとなっており、4並列で双方向とすれば200Gbpsのリンクとなり、他のプロトタイプのリンクと同じバンド幅である。レーテンシは1.5μs以下となっている。
Fat-Treeを使っているので、故障個所の切り離しはトーラスよりも容易であると思われる。
Sugonのプロトタイプは浸漬液冷など新しい点があるが、天河とSunwayのプロトタイプは、現用のCPUチップをそのまま使用したり、マイナーな改良程度で使用しており、問題になっているメモリバンド幅もあまり改善していないと思われる。また、電力効率も15GFlops/W程度で留まっている。
当然、本番のエクサ機ではCPUチップを作り直し、30GFlops/Wに近づけメモリバンド幅ももっとFlops値に見合うレベルに改良してくると思われる。しかし、これらのプロトタイプ機を作ったことが、エクサスケールのアーキテクチャや実装の検討に大して役立つようには思えない。何を目的にこれらのプロトタイプ機を作ったのであろうか?