日本のスパコン開発を牽引する東工大 松岡教授
東京工業大学(東工大)の松岡聡教授は、同大のTSUBAMEスパコンプロジェクトのリーダーであり、日本のスーパーコンピュータ(スパコン)開発を牽引するトップランナーの一人である。TSUBAME1.0はアクセラレータを搭載した日本初の大規模スパコンであり、2006年6月のTop500で7位にランクインしている。そして、TSUBAME2.0は2010年11月にTop500 4位と、Top10に入るシステムを構築してきた実績を持っている。
東工大のTSUBAMEはGPUアクセラレータを使うスパコン開発の先頭を走っており、その設計思想は、現在、Top500 1位の中国の天河2号にも大きな影響を与えている。
その松岡教授に、次世代のスパコン「TSUBAME3.0」、そして国家プロジェクトとして議論が始まっているエクサスケールシステムをどのようにするべきかを伺った。
エクサスケールを実現するために必要な技術とは
東工大のTSUBAME2.0は、稼動から3年を経過し、繁忙期にはシステム能力の1.7倍の計算需要があるという深刻な能力不足の状態になっているという。このため、この7月から、GPUをFermi世代のM2050から、Kepler世代のK20Xに交換するというアップグレードを行っている。この結果、単精度の演算性能は、4.8PFlopsから17.1PFlopsへと3.6倍にアップし、倍精度の演算性能は2.4PFlopsから5.76PFlopsへと2.4倍に向上する。また、GPUメモリの実測バンド幅も1.8倍程度に増加する見込みである。この性能は、倍精度では京スパコンの半分であるが、単精度では京の1.5倍強で、国内最大のスパコンとなる。
TSUBAME2.0のLINPACKでのエネルギー効率は、冷却などの電力も含めた消費電力で計算して667MFlops/Wであったが、TSUBAME2.5では、これを2100MFlops/Wに引き上げるという目標である。しかし、エクサのシステムでは、これを50,000MFlops/Wに引き上げる必要があり、中間地点のTSUBAME3.0では13,000MFlops/W(冷却などの電力を含む)を目指してシステム設計の検討や、要素技術の開発を行っているという。
TSUBAME2.0から3.0では、LINPACKのエネルギー効率を約20倍改善する必要がある。半導体プロセスの微細化によるエネルギー効率の改善に期待するところが大きいが、メニーコアやGPUの使い方の改善や冷却の効率化も重要であるという。
油浸により冷却効率の向上を目指す「TSUBAME-KFCプロジェクト」
冷却に関して、松岡教授のグループは、TSUBAME-KFCというプロジェクトを進めている。KFCは、Kepler Fluid Coolingというのが正式名称であるが、一説には、とある米国の外食産業にならい、鶏ならぬTSUBAMEを油で揚げるということから名づけられたプロジェクトであるという。油で揚げるというのはウソであるが、TSUBAME-KFCではTSUBAME2.5の1/30規模のスパコンを油に漬けて冷却する。
これで80℃~90℃のGPUを油で冷やし、その結果、油の温度は35℃~40℃に上昇する。油の槽の中に水冷の熱交換器があり、油を冷却する。冷却水の温度は25℃~35℃になり、この水を業務用のエアコンに使われるクーリングタワーで冷却して、油槽の冷却に循環させるという冷却を行う。
油と2次冷却水を循環させるポンプは必要であるが、京スパコンやTSUBAME2.0のように冷水を作って供給する必要がないので冷却水を作るエネルギーが節約できる。TSUBAME2.0では筐体のバックドアに仕込まれた熱交換器に冷水を流して冷却を行っているが、夏季は250kW程度の電力が低温の冷却水を作るために使われており,この節約は大きいという。また、TSUBAME2.0はバックドアまで熱を運ぶ空気を動かすファンに50kWの電力を使っている。油漬にすると、この300kWの大部分を節約でき、チップ温度が下がることによって漏れ電流が減り、消費電力がさらに減るという効果も期待でき、全体では30%程度消費電力を減らせる見込みという。
なお、現在、コンテナの中にあるのは油槽だけでスパコンが入るのは1カ月後とのことで、コンテナ内部は取材できなかった。
この技術はTSUBAME3.0を目指して実験を進めてきたのであるが、松岡教授の感触では、3.0での採用は難しいという。TSUBAME-KFCに使われているGreen Revolution Coolingの油はSCの展示で筆者も触ったことがあるが、油というよりは水に近いサラサラ感の液体であった。しかし、この油は、日本では引火温度が消防法の規定を満たさず、より粘性の高い油を使う必要がある。粘性が高いと部品のGPUボードなどを交換して引き上げたときに、油が切れず、油まみれになってしまい具合が悪いとのことである。
フロロカーボン系の液体は蒸発してしまうので、このような問題は無いが、コストが高い。ということで、松岡教授は適当な冷却液がないことが問題という。
しかし、このプロジェクトで、問題は低温の冷却水を作ることに多くのエネルギーが必要なことであることが分かったので、TSUBAME3.0では、低温の冷却水を必要としないシステムデザインを考えるとのことであった。
TSUBAME3.0では、IntelのHaswellの次世代、あるいは次々世代XeonプロセッサとNVIDIAの次世代GPUの組み合わせや、Intelの次世代Xeon Phiが候補に上がっているが、各社との秘密保持契約があり詳細は説明できないとのことであった。
TSUBAME3.0システムとしては、2015年4Qから2016年1Qに、倍精度演算のピーク性能は25PFlops、LINPACKでは20PFlops程度のレベルを目指しているとのことであった。