SC14の展示では、CPUなどの発熱を、空気ではなく液体を使って運び出すシステムの展示が目立った。また、そのための冷却システムを販売している会社の展示も多く見られた。スパコンの高密度実装が進んだために、空気で熱を運ぶ方法では発生する熱を運びきれなくなってきたことが、その背景にある。

空気の比熱は1008J/Kg℃(40℃)で、水の比熱は4180J/Kg℃程度であるから、重量あたりでは、水は空気の4倍程度の熱を運べる。しかし、水の密度はおおよそ1000kg/m3であるのに対して空気の密度はおおよそ1.2kg/m3であるから、体積当たりにすると、水は3500倍あまりの熱を運べることになる。

CPUのヒートシンクの高さが2cm、幅が10cmとすると、空気の流れる断面積は0.002m2で、流速1mとすると10℃の温度上昇で運べる熱は22J/s(=22W)である。これではCPUの発熱を運びきれない。CPU 1個だけなら20℃上昇を許容して流速を3m/sにすれば、132Wの熱を運ぶことができるが、複数のCPUや他の発熱部品を狭いところに詰め込むと、この条件を満たすのは難しく、空気では冷やせなくなる。

一方、水は体積が同じなら3500倍の熱を運ぶことができるので、毎秒0.6cm3というわずかな流量で同じ熱を運べる。そして、10cm3/sの水をパイプで供給することは難しくないので、現在の発熱密度が10倍になっても十分、冷却が可能である。

コールドプレートを使う水冷方式

水は電気を通してしまうので、直接、LSIやプリント板に触れさせるわけにはいかない。このため、パイプなどで水を運び、LSIなどに水で冷やす銅板やアルミ板などを接触させて冷却するという方法は古くから使われてきた。この水で冷やした銅板(あるいはブロック)を「コールドプレート(Cold Plate)」と呼ぶ。

コールドプレート方式の弱点は、CPUなどの少数の高発熱の部品を冷やすには適しているが、メモリDIMMや、その他の部品にまでコールドプレートを付けることは難しいので、それらの部品の発熱を取り去るために空冷のファンも必要になるという点である。

次の写真は、冷却系のメーカーであるASETEKの水冷用のラックといくつかの製品の例である。写真では見えないが、ASETEKのラックは、CPUなどを冷やして温まった水の熱を2次冷却水に移す熱交換器を内部に持っている。そして、冷却水の給排水系には、ASETEKはプラスチックの可撓制のあるパイプを使っている。

ASETEKの水冷用のラック。黒い給排水パイプが見える

水冷のブレード。2つの円形のものがコールドプレート。給排水のドリップレスコネクタが右側に見える

ASETEKのコールドプレートを使ったSuperMicroのサーバ製品

CRAYのCS400スパコンもASETEKのコールドプレートを使用している

CoolITも冷却システムのメーカーである。CoolITのコールドプレートは長方形の角を落としたような形状で、こちらも接続にはプラスチックパイプを使っている。ASETEKは1ラック用のCDUをラックに内蔵しているが、CoolITは、集中型の大きなCDUで複数のラックに冷却水を供給している。

CoolITはラックあたり45kWを冷却できると謳っていた

2次冷却水との熱交換を行い、冷却水の温度をさげてコールドプレートに供給するCoolITのCoolant Distribution Unit

CoolITのコールドプレートを使用するブレードサーバ。左寄りの2個の黒いものがコールドプレート

ASETEKやCoolITはプラスチックパイプを使っているが、水漏れを心配して、歴史的には、パイプとコールドプレートを銅で作って溶接するというのが一般的であり、LenovoのNeXtScaleサーバや富士通のFX100スパコンをはじめとして、多くの水冷システムは銅を使っている。銅パイプの場合は、力が掛かって接続部が破損しないように、余裕を持った配管が行われる。

Lenovoのサーバは主要LSIだけにコールドプレートを取り付けているのであるが、DIMMにはカバーが掛けられており、この部分もヒートパイプを使うなど何等かの方法で水冷されているようである。Lenovoの説明パネルでは、85%以上の熱を水冷で運んでいると書かれていた。

富士通のFX100スパコンの3ノードボードは1つのコールドプレートで、CPU LSIと両脇に配置された計8個のMicronのHMCメモリを冷却している。なお、この写真では、中央のノードはLSIが見えるようにコールドプレートを取り外した状態で展示されている。

京コンピュータの時は、メモリDIMMは空冷、IOノードも空冷で、ラックの発熱の50%程度しか水冷されていなかったが、FX100では90%が水冷である。そして残る10%もオプションのEXCU(リアドア空冷か)で吸収して計算機室の空調負荷をゼロにすることができる設計となっている。

SGIのICE-Xサーバは冷却水の通路は銅パイプであるが、コールドプレートはアルミで作られている。

なお、水冷のシステムは、冷却水の接続にはノンスピル(あるいはドリップレスともいう)コネクタを使っており、コネクタを抜いても水が漏れることがないようになっている。

LenovoのNeXtScaleサーバ。銅のパイプとコールドプレートを使っている

富士通のFX100スパコンの3ノードボード。中央のノードのコールドプレートは取り外してLSIが見える状態で展示している

SGIのICE-Xサーバ用のコールドプレート

SGIのICE-Xサーバ用モジュールの給排水接続部

カスタムのコールドプレートを使う水冷

プリント板に搭載された発熱部品の高さはマチマチであるので、単純な平面の大きなコールドプレートではうまく接触しない。このため、プリント板とほぼ同じサイズのアルミの分厚い板をそれぞれの部品の高さに合わせて、削ってすべての発熱部品に接触するようにして、ほぼ100%の熱をコールドプレートで運び出すというやり方を取っているのは主にヨーロッパ勢で、フランスのBULL、ロシアのRSC group、イタリアのEurotechなどである。

フランスBullのBULLXサーバ

EurotechのAurora Tigonの水冷モジュール。分厚いアルミ板を削って部品の形状に合わせたカスタムのコールドプレートを使っている

ロシアのRSCグループの製品もアルミの分厚い板から削り出したカスタムのコールドプレートを使っている。キャビネットあたり最大400kWを扱えるという

Eurotechは、SC14において第2世代となる「Aurora Hiveシステム」を発表した。Aurora Hiveのモジュールはブリックと呼ばれ、幅が105mm高さが130mmで奥行が325mmとなっている。このブリックをラックの前後から挿入する構造で、表、裏ともに16行×4列のブリックを収容する。従って、ラック全体では128ノードを収容できる。

ブリックは6角形ではなく4角形であるが、ラックには、ブリックを入れる4角形のスペースが整然と並んでいる様子が蜂の巣に似ていることからHiveと名付けられたという。

コールドプレートは冷蔵庫の冷却プレートのような形状で、そのままでは発熱部品とは接触せず、間を埋めるような金属部品を取り付けているようである。分厚いアルミ板から削り出すのは高くつくと思われ、こちらの方が安くできそうである。

このブリックに6枚のボードを収容でき、Xeon E3 1200 v3、あるいはX-Gene Oneプロセサを搭載したCPUボードが1枚、NVIDIAのK40あるいはXeon Phiボードを4枚、そしてInfiniBandの通信ボードを1枚というのが標準的な構成である。

Eurotech社の第2世代の実装技術を使うAurora Hiveサーバ用のブリック。6枚のボードを収容でき、CPUボード1枚、GPUやXeon Phiを4枚、通信ボード1枚というのが典型的

Aurora Hive用のボード

この冷蔵庫のようなコールドプレートを使い、発熱部品と合わせた厚みのアルミ板などを挟んで熱を伝えている