10ペタフロップスのCPUに関するパネルは、理研の次期スパコンのハードウェア開発グループのリーダの姫野氏がオーガナイザで、富士通の井上氏、日立の澤本氏、NECの古井氏、Intelの池井氏、AMDの山野氏、IBMのFlachs氏、そしてMD-Grapeのアーキテクトである理研の泰地氏の7名のパネリストで行われた。国産3社のスパコンプロセサの開発者と米国の主要プロセサメーカーの代表、そして専用アーキテクチャのプロセサの開発者を網羅した豪華メンバーである。なお、このパネルメンバー構成は当日まで秘密にされ発表されなかったが、このやり方が良かったのか、事前に発表した方が参加者が増えたのかは神のみぞ知るというところであろう。
10PFlopsスパコン用プロセサのパネル |
国産3社の代表は、自社のプロセサやスパコン開発の歴史を振り返り、10PFlopsに向けての方向性について述べた。3氏ともSIMDやベクトル型のアクセラレータの接続による性能向上の可能性について述べ、日立の澤本氏は組み込み用コアのような低電力プロセサにアクセラレータを接続することによる低電力化を推奨し、NECの古井氏も低電力コアにベクトルユニットを接続する案を提示したが、富士通の井上氏はトランジスタあたりの浮動小数点演算性能を上げることの重要性を指摘したが、具体的な実現方法には言及しなかった。
Intelの池井氏は、2010年には22nmプロセスで32Bトランジスタとぶち上げ、16コアチップで筐体あたり260TFlops、40筐体、8MWで10PFlopsシステムが実現できると述べた。一方、AMDの山野氏は、AMDは2009年には8コア、2010年にはアーキを一新した16コアプロセサを出す予定と述べ、OpteronコアとGPGPUを統合するFusionの適用可能性を指摘したが、具体的な10PFlopsへのイメージの提示は避けた。
IBMのFlachs氏は、HPCだけではボリュームが小さいので、コストの点から汎用CPUやゲームCPUとの相乗りが重要と述べ、CELLやBlue Geneのアプローチを正当化した。また、4GHzクロックで動作する4積和演算器を持つユニットを使うとすれば、10PFlopsを実現するためには、アーキテクチャに拘わらず30万個のユニットが必要であり、省電力の観点から、演算ユニット以外のオーバヘッドの減らすことが重要と述べた。
泰地氏はMD-Grapeのパイプラインは30演算程度をまとめて実行できると述べ、専用パイプラインを作ることにより、ある種の問題に対しては、汎用スパコンより大幅に高い効率が得られ、安価なシステムが作れると述べた。
パネリストの意見が皆同じでは議論が盛り上がらないので、色々な立場のパネリストを揃えたのは成功で、それぞれのパネリストの意見が聞けたのは面白かったが、パネリストの意見発表が長引き、出席者からの質問やコメントを元に議論する時間が無くなってしまったのは残念であった。
また、HPCのセッションでは、現在、国内トップのスパコンである東工大のTSUBAMEシステムにも採用されているアクセラレータのメーカーであるClearSpeed社の発表と、筑波大の朴先生らのグループが開発したMegaProtoの発表が行われた。
ClearSpeed社の96 SIMDのCSX600チップや、それを2個搭載したアクセラレータボードに関しては既に発表されているので新味は無かったが、同社のアクセラレータボードで行列積を計算する性能が、従来は55GFlopsと発表されていたが今回の発表では77GFlopsとなっていた。休憩時間に発表者を捕まえ、この性能が上がったのは何故かと聞くと、このような数値計算に詳しい人を採用し、その人のアドバイスで計算の無駄を省いたので性能が上がったという回答であった。
筑波大のMegaProtoは、2GFlopsのTransmetaのEfficeon 16個を一枚のマザーボートに搭載し、それを並べるアーキテクチャである。会場からは、Efficeonは買えなくなりそうだがどうするのかという意地悪質問が出たが、発表者である朴先生のところの学生さんは、モバイル用の低電力CPUを使う手もあると上手く答えていた。
COOL Chipsでは大学院の学生さんが発表するという論文がかなりあったが、英語での発表は暗記で乗り切れるとしても英語での質疑は大きな試練である。上手く切り抜けた人、難しい質問で適切な答えが出来なかった人も居るが、皆さん、懸命に答えていて、良い経験になるだろうなと思った。