IBMの発表は、ロスアラモス研究所に納入するロードランナーという名称の1ペタフロップスのスパコンに使用するCELLプロセサに関するものである。なお、ロードランナーというのは砂漠に棲む鳥の名前で、高速で地表を疾走することからこの名前が付けられており、ロスアラモス研究所があるニューメキシコ州の鳥にも指定されている。
ソニー、東芝、IBMが協力して開発したCELLプロセサは単精度の浮動小数演算は高性能であるが、倍精度浮動小数演算はとってつけたような実装で、ピーク性能で13GFlopsと汎用デュアルコアCPUに負ける程度の性能しか出ない。
ロードランナーシステムでは100GFlops程度のCELLプロセサを使い、システム全体で1ペタフロップスを超えるということが発表されていたが、具体的にどのように実現するのかは公表されていなかった。今回のCOOL Chipsで初めて、その実現方法の一端が発表された。
今回の発表では、CELLのSPEに倍精度浮動小数点の積和演算を実行する2個の演算ユニットを追加する改造が示された。IBMはこれをeDP (Enhanced Double Precisionか?)と呼んでいる。現在のPS3に使われているCELLでは、レジスタファイルから4個の単精度浮動小数点演算器に32x4=128ビットのデータバスが繋がっているが、これを追加された倍精度浮動小数点演算器に64ビットx2として接続すれば良いので、当然予想された拡張方法である。
もう少しスマートな実装をしてくるのかと思っていたのであるが、従来の浮動小数点演算器はそのままにして、上に2個の倍精度浮動小数点演算器を載せるという実装であった。ローカルメモリの上のエリアは無駄な空き領域になっているが、PS3のように大量に出る製品ではないので、多少チップが大きくなっても、設計の手間を最小にしたほうが良いという判断であろう。
結果として、90nmプロセスから65nmプロセスに移行したのに、チップ面積は235平方mmから212平方mm、3.2GHzクロックでの消費電力は110Wから100Wと、どちらも10%程度の減少に留まっている。また、レジスタファイルからのバスを長くしたことが影響しているのか、追加された倍精度浮動小数点演算器のレーテンシは9サイクルであり、あまり速くはない。
公表されているロードランナーシステムは、Opteronベースのx3755サーバからInfiniBandを経由してBladeCenterシャシーに入れたCELLブレードを接続するという構成になっているが、IBMの現状製品(eDP版CELLは新規であるが)で作るとこうなるというだけで、必ずしも良い構成とは言えない。これに対して、今回の発表ではOpteronブレードとeDP版CELLを搭載したブレード2枚とを一組とし、その間にInfiniBandの接続ブレードを挟んだTri-Bladeモジュール(4枚なのにTri-というのはちょっと変であるが)の開発を行っていることが発表された。OpteronとCELLの距離が近くなりレーテンシが短縮されるので性能が向上すると述べており、妥当なアプローチである。