オークリッジ研がGordon Bell Peak Performance賞を受賞

これらの候補論文の中から、Gordon Bell賞のメインのPeak Performance Awardを受賞したのは2番目のオークリッジ国立研究所のM.Eisenbach氏らの論文である。今回の第34回Top500で首位となった同研究所の増強されたJaguarシステムを用いて、鉄の磁性化のシミュレーションという実アプリケーションでLINPACKの1.759PFLOPSを上回る1.836PFLOPSという高い性能を実現したことが評価された。

解析を行った問題の説明スライド(左)とスケーラビリティを示すコア数と性能のグラフ(右)

計算に使用されたオークリッジ国立研究所のJaguarシステムは、AMDの6コアInstanbulをCPUとして使用するCrayのXT-5スパコンで、全体で22万4,162コア、ピーク性能2.331PFLOPSのシステムである。この写真では見えにくいが、この筺体の列が奥行き方向に8列存在する。

筐体の側面に巨大なジャガーが描かれているオークリッジ研究所のJaguarシステム(出所:OakRidge National Laboratory)

長崎大学のGPUクラスタがPrice Performance賞を獲得

Gordon BellのPeak Performance賞では高いFLOPSを達成することが評価されるので、やはり、Top500のNo.1システムを使用できる研究者が有利である。このところ日本のスパコンはTop10にも入れないので、普通のスパコンを使う論文では日本の研究者はGordon Bellの最終候補に入るのも容易ではない。

このような状況で、長崎大学の浜田剛助教らのGPUを使うシステムの論文がGordon Bell Price Performance賞に輝いたのは立派である。

浜田氏らの論文は、事前のアブストラクトでは256GPUを使い42TFLOPSを達成となっていたが、発表までの時間を使って規模の拡大やチューニングを行い、本番の発表では760GPUを使い158TFLOPSを達成となっている。達成したFLOPS値では、Peak Performance賞を受賞した論文に比べて1/10以下であるが、GFLOPSあたり7.20ドルというコストパフォーマンスの高さがポイントである。

ツリー法によるN体シミュレーションの説明図(左)と158TFLOPSを達成した出島GPUクラスタ(右)

消費電力は100.1KWと発表されたが、出島クラスタの写真を見て、会場からは、中央に置いてある扇風機の消費電力は含まれているのかという質問が出ていた。

IBMの論文とD.E.Shaw研究所の論文が特別賞を受賞

また、8番目の論文であるIBM Almaden研究所の"The Cat is out of the Bag"がGordon Bell Special Category賞を受賞した。しかし、筆者は別のセッションに出席しており、この発表を聞くことが出来なかったので、残念ながら、発表内容の紹介ができない。"The Cat is out of the Bag"は秘密が漏れるという意味の慣用句であるが、この論文でシミュレートした大脳皮質の分量は、猫の大脳並みの規模であることから、論文タイトルとして使用したものと思われる。なお、発表論文は、共著者のModha氏のWebサイトで見ることができる。

D.E Shaw研究所はAntonと呼ぶ分子動力学(Molecular Dynamics:MD)計算専用のスパコンを開発し、その最初のシステムでのシミュレーション結果を発表した。

タンパク質のフォールディングではミリ秒程度のシミュレーションを行わないとどのように折りたたまれて行くかが分からないのであるが、汎用スパコンでのシミュレーションでは1日掛かって100ns程度に相当するシミュレーションしか出来ず、msのシミュレーションには何万日も掛かってしまうので、実用的ではない。これを専用アーキテクチャで100倍程度加速すれば、実行可能な範囲に入るというのがAnton開発の狙いである。

D.E.Shaw氏が創立したD.E.Shaw & Coは運用資産2.5兆円の世界最大規模のヘッジファンドであるが、現在は、Shaw氏はヘッジファンドの日常のマネジメントには携わらず、D.E.Shaw Researchのチーフサイエンティストとして、MDのアルゴリズムやAntonシステムの開発を行っているという。そして、同研究所の運用費用はShaw氏のポケットマネーで賄われていると言われている。

このAntonの512ノードシステムの最初の2台が完成し、それを用いて、2万3,558原子のDHFR(5DFR)では10.4μs/day、11万6,650原子のT7Lig(1AOI)では3.06μs/dayの性能を達成した。