TSUBAME1.2では、Tesla S1070を170台増設し、2GPUペアを1台のX4600サーバに接続するという構成となる。おおむね、2GPUペアごとにX4600 に接続するが、GPUをもっと使いたいというユーザも出ると予想されるので、4GPUを接続するX4600を22ノード作る予定である。
結果として、
- 22ノード:X4600(2.4GHz デュアルコアOpteron 8ソケット)+ClearSpeed+ 4GPU
- 296ノード:X4600(2.4GHz デュアルコアOpteron 8ソケット)+ClearSpeed+ 2GPU
- 337ノード:X4600+ClearSpeed
- 90ノード:2.83GHz クワッドコアXeon 2ソケット
と4種の異なるノードが存在し、計算エンジンとしても、Opteron、Xeon、ClearSpeed、Tesla 10と4種のチップが含まれる構成となる。 なお、ローパワーXeonを使うco-TSUBAMEシステムは設置時期がしばらく後になるので、今回のLINPACK性能測定には間に合わない。
巨大連立一次方程式の解法であるLINPACKで、各ノードに同じ量の計算を分担させると、4GPU付の(1)のノードは早く計算を終わり、(4)のXeonノードの計算が終了するのを待つことになり遊んでしまうので、システムとしてピーク性能は得られない。つまり、このような能力、構成が異なるノードを持つシステムで、高いLINPACK性能を出すためには、全部のノードにその能力に応じた量の処理をバランスよく分担させ各ノードの計算能力を使い切る必要がある。
このTSUBAME1.2のように4種類もの能力の違うノードがあると、どのように分担させるかが難しいと思われるが、チューニングを担当する東工大の遠藤敏夫准教授は、めどがついたと自信を見せている。そしてリーダーの松岡聡教授は、異なる種類のノードが混在するので、1種類のノードで合計170TFlopsのシステムに比べるとどうしてもFlops利用率は下がるが、2008年11月に米テキサス州オースチンで開催されるSC08で発表される次回のTop500では、東大T2Kの83TFlopsを上回り日本一を奪還できるチャンスはあると考えている。
ただし、LINPACKは1つの性能指標であり、色々な性質の実問題を解く性能という点ではTSUBAME1.2がT2Kを上回る場合もあれば、逆の場合もある。しかし、T2Kのような単一種類のノードを持つシステムだけでなく、TSUBAME1.2のような色々なノードを持つスパコンがどのような用途に向き、コストパフォーマンスがどうなるかは興味深い問題であり、このようなシステムの構築と運用は、スパコン全体の進歩に大きく貢献すると思われる。