天河1Aの電力管理

天河1Aスパコンは4MWを消費する大きなシステムであるので、電力の管理、低減は重要である。そのため、図14に示すように主要なコンポーネントの消費電力を測定し、その値に基づいて消費電力を制御するメカニズムが設けられている。

図14にみられるように、天河1Aでは各部のコンポーネントの消費電力を測定できるようになっており、サンプリングで動作状態をモニタしている。測定された状態に基づき、判断モジュールがCPU、GPUやその他のモジュールの電力をコントロールする。CPUクロックとメモリのクロックはダイナミックに可変され、電力をコントロールする。また、冷却ファンの速度も筐体の温度で制御される。また、リソースマネジメントは、すべてのジョブキューを監視し、アイドルなノードをスリープ状態にして電力を減らす。スリープ状態にするとノードの消費電力が1/10に低下し、消費電力を大幅に減らすことができる。

  • 天河1Aスパコンの電力制御機構

    図14 天河1Aスパコンの電力制御機構

2015年の爆発事故で天河1Aをシャットダウン

2015年8月12日、天津港の国際物流センターの中にある危険物倉庫で大規模な爆発が発生した。2回目の爆発はTNT火薬にして20トンを超える大規模なものであった。天河1Aスパコンの設置場所は爆発の発生個所から数kmしか離れておらず、爆風と激しい揺れが襲い、ガラスが割れ、壁や天井のパネルが破損したという。しかし、爆発以降も天河1Aスパコン自体は稼働を続けており、爆発30分後に、安全のためにマニュアルでシャットダウンされたとのことで、爆発による致命的な損傷や消火のための放水で絶縁不良が発生するという致命的な損傷は免れたようである。