東京工業大学(東工大)のTSUBAMEシステムは、LINPACK性能38.18TFlops を達成して2006年6月にはスーパーコンピュータ(スパコン)のランキングであるTop500で世界第7位となり、国内では、地球シミュレータを抜いて日本一のスパコンとなった。TSUBAMEはその後も増強を続け、 2008年6月には67.7TFlopsと性能を向上したが、新たな大規模システムの稼動や他のスパコンも増強を行っており、世界順位は24位に低下している。そして、国内でも、東京大学(東大)と筑波大学のT2Kスパコンに抜かれ、3位に後退してしまった。

しかし、東工大は、OpteronとClearSpeedのアクセラレータから構成されているTSUBAME1.0に、NVIDIAのGPUの大量増設と、Xeonクラスタを追加してTSUBAME1.2にアップグレードする計画を進めている。これらの増設によりTSUBAME1.2は、倍精度浮動小数点演算の計算能力は現状の2倍強の170TFlopsを超え、現在、国内トップの東大T2Kシステムの140TFlopsを上回る規模となる。また、単精度浮動小数点演算では、900TFlopsとペタフロップスに迫る性能となる。

GPUは、当初はグラフィック処理専用のハードウェアであったが、表示処理の高度化に伴いより複雑な処理の要求に応えるため汎用の浮動小数点演算が行えるユニファイドシェーダー構成を採るようになってきた。こうなると、グラフィックスだけではなく、汎用の計算エンジンとしても使えるようになる。特に、NVIDIAはCUDAという並列プログラミング言語を公開しており、GPUの汎用科学技術計算用途の普及に弾みが付き出して来ている。

最新GPUの1つであるNVIDIAの「GeForce GTX 280」は1チップに240個の演算コアを集積し、各演算コアが1,296MHzクロックで毎クロック3演算を実行することにより、単精度浮動小数点演算では933GFlopsの演算性能を持っている。これに対して3GHzクロックの4コアXeonは約100GFlopsであり、単精度浮動小数点演算に関しては、GPUは1桁高い演算能力を持っている。科学技術計算では倍精度浮動小数点演算が使用されることが多いが、単精度で済む問題もあり、このような計算では魅力的なハードウェアである。

一方、倍精度浮動小数点演算に関しては、GTX 280では8個の演算コアに1個の演算器しか備えていないので、60積和演算/サイクルの能力である。しかし、Xeonは、クロックは2倍強であるが、4コアの場合でも16演算/サイクルなので、これに比べるとGTX 280は1.5倍程度の演算能力をもっている。

さらに、1,107MHzクロックで512ビット幅で141.7GB/sというメモリバンド幅を持つGTX 280は、メモリバンド幅を必要とする科学技術計算には威力を発揮する。メモリバンド幅という点では、3チャネルのDDR3インタフェースを持つ次世代XeonのNehalem-EP(Gainstown)でも25GB/s程度であり、GTX 280の足元にも寄れない。

メモリバンド幅が性能ネックとなる流体シミュレーションを模擬した姫野ベンチマークにおいて、東工大の青木教授のグループは、GTX 280の前世代の「GeForce 8000 GTX」を使用して30.6GFlopsをマークし、今年3月の理研シンポジウムでPC部門のトップ性能を叩き出して表彰された。

また、2008年10月15日に開催された情報処理学会のHPC研究会において、富士通研究所の成瀬氏らは、計算方法の改善により8800 GTXで36.1GFlops、最新のGTX 280では70.1GFlopsを達成したと報告している。