2番目の論文はパデュー大学、アラバマ大学、チューリッヒ工科大の共著の論文で、理研の論文と似た分野で、ナノレベルの電子素子のシミュレーションを行っている。オークリッジ国立研究所のJaguarシステムを使い、倍精度浮動小数点計算では1.28PFlops(ピーク性能比55.4%)、それほど精度を必要としない部分を単精度浮動小数点計算に置き換えることにより、1.44PFlopsを実現している。ナノワイヤだけでなく各種のナノ素子を解析できるようになっており、アプリケーションとしての完成度は高い感じであった。
金属の凝固のシミュレーションについて発表する東工大の下川辺氏 |
3番目の論文は東工大と京都工芸繊維大の共著の論文で、東工大のスパコン「TSUBAME 2.0」を使い、金属の凝固の様子をシミュレーションしたという論文である。
溶融状態から金属が凝固するときにデンデライトというシダの葉のような形状が成長して重なっていくが、凝固の速度や不純物の存在などで成長の様子が変わり、固まった金属の性質に大きく影響する。この凝固の様子が解析されメカニズムが分かって来て、制御できるようになると、例えば、強度の強い鉄板などが作れるようになり、車の重量を減らして燃費を改善するなどというメリットが出てくる。
計算性能の制約から、従来は2次元の解析であったり、3次元の場合は簡単な形状の小規模なものしか解析できなかった。これを今回の論文の方法では、複雑な形状でも3次元で解析できるようになった。
そして、上の図に示すように、実測とシミュレーション結果は良く一致している。
Phase-Field法というこのシミュレーションには大量の計算を必要とし、この計算を効率良くGPUにやらせることが鍵で、ハイブリッドY法と呼ぶ、GPUとCPUの役割分担を考案した。この方法を使うことにより、GPUの計算中にCPUが通信処理を並列に実行してしまうことが可能となり、全体としての処理時間が短縮できたという。
応募論文の提出時には単精度浮動小数点計算で1.017PFlopsという結果であるが、その後の改善で、発表時には2.0PFlopsを実現している。この2.0PFlopsという結果は、4000個のGPUと16,000コアを使用するシステムの単精度浮動小数点演算のピーク性能の44%に相当する。LINPACKのようなベンチマークではなく、Phase-Field法という実アプリケーションの実行においてGPUを使った計算で44%という高いピーク性能比を出していることは注目に値する。その結果として、1468MFlops/Wというグリーンコンピューティングとなっている。
4番目の論文はイタリアのConsiglio Nazionale delle Ricercheと東工大、ハーバード大学の共著である。血流をシミュレートすることにより、どのようにして梗塞に繋がる血栓ができるかを理解することが目的という。
血は単なる赤い液体のように見えるが、実は赤血球は中央がへこんだ円盤、あるいは穴が十分に開いていないドーナツのような形状で、それが押し合いへし合いして流れている。そして押し合いにより赤血球の形状が変化する。つまり、流れとともに個々の赤血球の変形を計算する必要があるので、大量の計算が必要になる。また、血管は非常に複雑な形状をしており、領域の分割の仕方が難しいという。
このグループは昨年のSC10ではBlueGene/P(BG/P)を使った結果を報告したが、今年は東工大のTSUBAME 2.0を使っている。そして、10億メッシュに分割した血管を4.5億個の赤血球が流れるケースを1万ステップ計算する場合で0.6PFlopsを実現している。
最後の5番目の論文は、ブラウン大学、アルゴンヌ国立研究所、ドイツのFZ Julichの共著の血流のシミュレーションの論文である。こちらは脳の血管にできた血瘤にかかる力をシミュレーションで求め、血瘤が破損して脳出血を起こす過程をシミュレートする。
マルチパッチドメインという血管をオーバラップする形で分割する方法で計算を行い、JulichのJUGENE、アルゴンヌ国立研究所のBG/Pシステム、そしてオークリッジ国立研究所のJaguarを使ってシミュレーションを行った。一般に、スパコンのプロセサ数に比例して問題のサイズを大きくするウイーク(Weak)スケーリングはできるが、同じサイズの問題を短い時間で解くストロング(Strong)スケーリングは難しい。しかし、この論文の計算法は、使われた3種のスパコンで、同じサイズの問題を、ほぼ、ピーク性能に逆比例した時間で計算できるストロングスケーリングが成り立っていることを示した。