温水冷却は何が良いのか

ABCIスパコンの1つの特徴は、温水を使った効率の高い冷却方式を採用したグリーンスパコンであることである。実は、温水冷却は東工大のTSUBAME3.0で採用され、ABCIは国内では2システム目の温水水冷マシンであるが、ABCIもTSUBAME3.0も元の設計は松岡先生なので、同じ冷却方式であるのは当然とも言える。温水冷却は、なかなか面白い方式であるので詳しく説明したい。

スマホなどでは、特別な冷却は使わず、温まったスマホの表面の空気が軽くなって上昇することで、周囲から温度の低い空気が入ってくるという自然対流で冷却を行っている。しかし、消費電力が多くなると自然対流では発生する熱を運び出すことはできなくなる。

このため、ファンを付けて、CPUなどの高発熱部品に風を当てて、熱を運び出す空気の量を増やす強制空冷という方式が使われる。

強制空冷で運び出せる熱量は、熱を運ぶ空気の体積と、空気の温度上昇と比熱で決まる。空気の比熱は実用範囲ではおおむね一定であるので、たくさんの熱を運び出すためには、大量の体積の空気を動かすか、温度上昇を大きくするか、あるいは、その両者かということになる。

大量の空気を動かすということは断面積が一定とすると、流速を速くすることになる。しかし、空気の抵抗は流速の3乗に比例するので、流速を速くすると、ファンの電力も多く必要になるし、騒音も増える。まあ、数m/s程度から最大でも10m/sと言ったところであろう。

温度上昇を大きくとろうとすると、吸気温度を下げるか排気温度を上げることになる。排気温度は、最大40℃くらいで、それより高いと吹き出し口のあたりを触るとアチッという感じになってしまう。また、室内で保守作業などをする人もやっていられないので、リアドアクーラーで排気温度を下げるような工夫が必要になる。一方、吸気温度を下げるのは結露が制約になる。このため、コンピュータルームは除湿して結露する温度を高めるが、それでも10℃まで下げるのは難しい。

このため、最近のスパコンでは、水などの液体で熱を運ぶ冷却が一般的になってきている。一番一般的な方法は、CPUやGPUのような高発熱の部品には、空気に熱を伝えるヒートシンクではなく、水冷したコールドプレートを付ける。そして、パイプでコールドプレートに冷却水の供給と温まった水の排出を行う。液体は空気と比べて同一体積で1000~2000倍の比熱を持っているので、同じ熱を運ぶのに空気に比べて1/1000~1/2000の流量で済む。

これまでの水冷は、常温の水、あるいは若干低温の水を使うのが一般的であったが、TSUBAME3.0やABCIではコールドプレートへ流入する水の温度は32℃、排出する水の温度は40℃という設計になっている。

  • オレンジの丸いものがAsetekの水冷コールドプレート

    オレンジの丸いものがAsetekの水冷コールドプレート。手前のシャシーはCPU部で2個のXeonにコールドプレートが付いている。後ろ側に展示されているシャシーはGPU部で4個のV100 GPUにコールドプレートが付いている。コールドプレートに接続される冷却水の黒いパイプが見える。また、DIMMの間には板状のコールドプレートが置かれている

なお、Asetekのコールドプレートは冷却水を動かすポンプを内蔵している。そして、温度センサを持ち、流速をコントロールしている。この方式では、仮に1つのポンプが故障しても、直列にパイプでつながれた別のポンプがあるので、温水の流量にはほとんど影響せず、信頼度が高いという。

  • 水冷のパーツを取り出して展示したもの

    手前は、水冷のパーツを取り出して展示したもので、一番手前はDIMMを冷却するコールドプレート。その奥の2個の銅色のものがCPUに取り付けられるコールドプレート

一般的にコールドプレートと呼ばれているが、32℃のプレートはコールドというには温度が高いが、32℃~40℃のコールドプレートを付ければCPUやGPUの冷却には十分である。

次の図は、ABCIスパコンの冷却システムを示している。右下の写真が計算ノードで、この部分は、Rack CDUから供給される32℃の温水で冷却される。最大40℃まで温められた冷却水はRack CDUに戻って、Rack CDUの熱交換機を通して、熱をデータセンターの冷却水(2次冷却水)に移す。これにより40℃に温められた2次冷却水は左端の写真に写っているクーリングタワーで32℃に冷却され、Rack CDUに戻る。

計算ノードの中のSSDやInfiniBand HCAは空冷である。また、ラックの中のリーフスイッチも空冷であり、ラックの排気は40℃程度まで上昇する。さらに、InfiniBandのディレクタスイッチや大容量ストレージのラックは空冷であり、この16ラック部分の排気も40℃程度に上昇する。これらの排気は、32℃の水を通すコイルに当てて冷却するファンコイルユニットを使って32℃に冷却する。車のラジエーターは空気で水を冷やすが、ファンコイルユニットは逆で、水で空気を冷やす。

これで、水冷と空冷を併用して、ABCIの機器の発熱をクーリングタワーに運び、最大3.25MWの熱を大気に放出する。

  • 空冷と水冷を組み合わせたABCIの冷却システム

    空冷と水冷を組み合わせたABCIの冷却システム。計算ノードのCPU、GPUは32℃の水で冷やし、その熱はクーリングタワーで大気に逃がす。空冷ラックや計算ノードの水冷でない部分の熱は、ファンコイルユニットで冷やし、この熱もCPU、GPUの熱と合わせてクーリングタワーで大気に逃がす

次の図はRack CDU近傍の写真で、Rack CDUはサーバーラックの一番上に搭載されている。Rack CDUは内部に水―水の熱交換機を持っていて、コールドプレートを冷やす水とラックから熱を運び出す2次冷却水は分離されている。

ラック内部の右側の壁に計算ノードの冷却水のパイプを接続するコネクタが縦方向に並んでいる。このコネクタは、水が通っている状態で引き抜いても一滴も水が洩れない構造になっている。

壁のコネクタに接続している青い印が付いたパイプは、コールドプレートに送る低温の水、オレンジのリングが付いたパイプは高温の水のリターンである。

Rack CDUから出ている太いパイプが縦方向に並んでいるコネクタに繋がっており、給排水を処理している。

  • サーバーラックの一番上に搭載されているのがRack CDU

    サーバーラックの一番上に搭載されているのがRack CDUで、コールドプレートを冷却した熱を、システム全体の2次冷却水に伝える熱交換機を内蔵している。右側の壁についている青い印が付いたパイプは、コールドプレートに送る低温の水、オレンジのリングが付いたパイプは温まった高温の水のリターン

(次回は8月10日に掲載します)