世界トップクラスのバンド幅を持つインタコネクト

ノード間の接続構成

そして、TSUBAME2.0では、この計算ノードを1408台使用する。計算ノードは16ノードのグループで2台のVoltaireの4036E QDR IBスイッチに接続されている。このスイッチは40GbpsのQDR 36ポートのスイッチであり、計算ノード側に16ポートを使い、上位のVoltaire Grid Director 4700スイッチへの接続に各3ポート、合計18ポートを使うという構成になっている。上位の4700スイッチは6台が1グループで、それぞれファーストレイル、セコンドレイルと呼ばれ、偶数番のエッジスイッチはファーストレイル、奇数番のエッジスイッチはセコンドレイルに接続される。Voltaire 4700は324ポートの大型スイッチで、90台(計算ノード用の88台と、後述のMedium、Fatノード用の2台の合計)のエッジスイッチから各3ポートの接続で、合計270ポートを使っている。そしてファーストレイル側は、残りのポートを使ってファイルや管理ノード側のエッジスイッチへの接続を行っている。

このようにエッジスイッチ間を3本(40Gbps×3)のリンクで接続しており、ノード間接続インタコネクトのバイセクション(Bisection)バンド幅は200Tbpsに達し、これは世界一クラスのバンド幅であるという。実は、TSUBAME1.0ではノード間インタコネクトのバンド幅が狭く、今回は、その反省で強力なインタコネクトを構成したという。

そして、計算ノードの96GiBのメモリでは不足で、さらに大きな共通メモリを必要とするユーザ向けに4ソケットで128GiBのメモリを持つMediumノードを24ノード、同じく4ソケットで256GiBと512GiBのメモリを搭載するFatノードを10ノード用意しており、これらは2台の4036Eスイッチを経由してファーストレイル、セコンドレイルのスイッチに接続されている。

低消費電力のTSUBAME2.0

TSUBAME2.0が全体で1MW程度と各段に消費電力が小さいのは、GPGPUの採用が効いていることは確かであるが、それ以外にも大きな工夫がある。TSUBAME1.0では、サーバ筐体と空調機を近接した列に並べ、サーバ筐体からの高温の空気を直接空調機に入れ、冷却した空気をサーバ筐体の反対側に天井から送り込むというショートループの冷却で効率を上げていたが、TSUBAME2.0では、一歩進んで、密閉型の筐体に水冷モジュールを組み込んで95~97%の熱を水で運び出す。これによりラックあたり35KWという高い発熱密度を可能にしている。

また、水での冷却は効率が良いので、PUE((機器電力+冷却電力)/機器電力=)1.28を達成できる見込みである。これは機器の電力に対して冷却の電力は28%ということで、冷却に70~100%の電力を必要としている他のセンターよりも大幅に冷却電力を削減している。

この水冷の低温の水を供給するチラーユニットはコンピュータ室の外側に置かれ、写真では左側の建物に置かれるTSUBAME2.0筐体とパイプで接続される。実は、この場所にはもっと大きな木が植わっていたのであるが、それを伐採してスペースを作り、右側に若い木を植樹したという。

冷却水を作るチラーユニットを置くための架台

手島校長の像とGSICスパコンセンター

実は、このチラーユニットの台の右側には右側の写真のように、明治の工業学校時代の手島校長の像がある。松岡教授に、「手島先生に動いて戴けば、もっとスペースができるのでは」というと、それはできませんという返事であった。