東京工業大学(東工大)の3代目スーパーコンピュータ(スパコン)である「TSUBAME3.0」は最先端の技術チャレンジに挑むスパコンであり、継続運用するTSUBAME2.5と合わせて15-20PFlopsの演算性能、4-5PB/sのメモリバンド幅、ペタビット級光ネットワークを持つ先端的スパコンである。

そして、従来の科学技術計算に加えてビッグデータ処理や機械学習などへの適用を睨んだ設計になっている。さらに、10GFlops/Wを超える性能電力比を実現し、PUEも1.05を下回る電力効率の高いスパコンとなっている。

TSUBAME3.0は最先端の技術チャレンジに挑むスパコン (この記事の図は、特に断ったものを除いて、松岡先生の発表スライドのコピーである)

TSUBAME3.0は、次の図に示すように、SGIの「ICE XA」で構成されており、IntelのXeon E5-2680 v4 CPUが2個とNVIDIAのSXM2 P100 GPUが4個からなる540台の計算ノードを持っている。そして、この計算ノードには256GBのメモリと2TBのNVMe SSDが付いている。

システム全体では1080個のXeon E5-2680 v4と2160個のP100が使われており、ピークの倍精度浮動小数点演算性能は12.15PFlopsとなる。また、ディープラーニングなどで使われる16ビットの半精度浮動小数点演算の場合は47.2PFlopsの性能を持つ。

ストレージはData Direct Networks(DDN)の「ES14K」を3ラックの構成で、15.9PBのLustre並列ストレージとなっている。また、TSUBAME3.0のホームとして45TBのストレージが接続されている。

計算ノード間、計算ノードと並列ファイルシステムはIntelのOmni-Pathで接続されている。この図に見られるように、3台のスパインスイッチを使い、フルバイセクションバンド幅の光ネットワークとなっている。バンド幅は432Tbit/sであり、これは全インターネットの平均通信量の2倍に上るという。

TSUBAME3.0はSGIのICE XA計算ノードとDDNのストレージをIntelのOmni-Pathで接続したシステム。倍精度演算性能は12.15PFlops、並列ファイルは15.9PB、ホームストレージは45PB。これらを432Tbit/sの光ネットワークで繋いでいる

TSUBAME3.0の計算ノードやSGI ICE XAベースは、東工大学術国際情報センター(東工大GSIC)とSGIの共同設計によるもので、TSUBAME3.0用に新設計されたものである。HPE(現在、SGIはHP Enterpriseの1部門となっている)のSGI部門のCTOのEng Lim Goh氏は松岡先生の要求が厳しく、苦労したと述べ、社内では、この計算ノードは松岡ブレードと呼ばれていると述べていた。

各計算ノードラックには8台のOmni-Pathのリーフスイッチが搭載され、各リーフスイッチから2ポートのペアが9台の計算ノードに接続されている。Omni-Pathのリーフスイッチは48ポートを持っているのであるが、後述のように、ICE XAでは1段に9枚の計算ノードブレードを搭載しているので、ポートを余らせて36ポートしか使用していない。

このあたりは、Mellanoxの36ポートInfiniBand(IB)スイッチを使うシステム提案も可能となるという配慮かも知れない。

なお、各ノードは2つのリーフスイッチに接続されており、1つのリーフスイッチが故障しても、ノードが切り離されてしまうことがない設計となっている。

リーフスイッチとスパインスイッチの接続は18×120=720本で、この接続には光ケーブルが使われている。Omni-Pathのスパインスイッチは768ポートで、これを3台使っているので合計では2304ポートある。一方、リーフスイッチからの接続は18×120=2160ポートであり、余った144ポートはストレージシステムやログインノードの接続に使われていると見られる。

リーフスイッチとの接続は2160ポートで、それぞれが200Gbpsの双方向バンド幅(100Gbit/sの送信と受信)を持っているので432Tbit/sのバンド幅ということになる。

そして、右側の図にノードの構成が示されている。2個のXeon CPUに4個のGPUが接続されており、4個のGPUはNVLinkで完全結合されている。この構成はNVIDIAのRDG-1とほぼ同じである。ただし、PLXのPCIeスイッチからOmni-PathのHFIが接続されており、ノード全体ではOmni-Pathが4ポート出ている点が異なる。

さらに、CPU0からx4のPCIe経由で、Intelの2TBのSSDが接続されている。このストレージは、ローカルの高速ファイルとして使ったり、バーストバッファとして使ったりする。

1ノードは1枚のブレードに載っており、ICE XAの1ラックには36枚のブレードを収容している。消費電力は50~60kWに上り、これは一般のデータセンターのラックの10~20倍の消費電力である。ただし、1ラックの電力は大きいが、全体としてはTSUAME3.0の消費電力は、TSUBAME2.5よりも少ないという。

TSUBAME3.0のスパインスイッチとリーフスイッチの接続(左)とノードのCPUとGPUの接続(右)