PEZYの齊藤社長が受賞講演
SCのGreen500 BoFでは、1位の受賞者が講演を行うのが恒例となっている。なお、Green500のリストの更新は年に2回行われるが、ドイツで開催されるISCではGreen500 BoFが行われないので、Shoubuは前回も1位であったが、齊藤社長の受賞講演は今回のSC15が初めてである。
次の図は、Shoubuの全貌を示すもので、右上の写真が5つの液浸槽が並んだ様子、2番目が液浸槽を上から覗き込んだ写真、3番目は組み立てた状態のブリック(奥)と分解したブリック(手前)、そしてブリックを横から見た図になっている。
ブリックはアルミ板のコアを挟むように2枚のマザーボードがあり、マザーボードの表裏に、それぞれXeon E5-2618Lv3 CPUと4個のPEZY-SCが搭載されている。結果として、このブリックにはXeon 1個とPEZY-SC 4個からなるノードが4ノード収容されている。
この液浸槽には4×4で16本のブリックが収容されており、Shoubu全体では320ノードで1280個のPEZY-SCを含むシステムとなっている。なお、このシステムのピーク演算性能は2PFlopsとなるが、Top500のデータでは約1.5PFlopsとなっており、まだ、フルシステムでは稼働していないようである。
そして、各Xeon CPUには64GBのメモリ、PEZY-SCには16MBのメモリを搭載している。さらに、この写真では右側の方にIOボードが付いており、ここからInfiniBandやSSDが接続され、電源もIOボードの裏側に実装されている。
PEZY-SCは1024コアを集積するメニーコアプロセサである。GPUなどでは、多数の演算器を持つが、数十の演算器が命令発行機構を共用するような設計が多い。しかし、PEZY-SCでは、各コアが命令発行部を持ち、すべて異なる命令列を実行することもできるMIMD(Multiple-Instruction Multiple Dada)アーキテクチャになっている。
そして、4コアのグループをVillage(村)、4VillageのグループをCity(市)、16CityのグループをPrefecture(県)と呼び、4Prefectureが1チップに集積されて1024コアとなっている。Villageは2コアごとに2KBのL1Dキャッシュを持ち、Cityは64KBのL2Dキャッシュを持つ。そしてPrefectureは2MBのL3キャッシュを持つという構造になっている。これらのキャッシュ間のコヒーレンスは自動的には維持されず、下位のキャッシュにフラッシュすることでコヒーレンスが取れるようになっているのは、GPUなどと同様の構造である。
次の図は消費電力の測定結果で、コアフェーズの70%から90%の区間の消費電力から計算すると7.032GGlops/Wとなり、この値で1位ということになっている。しかし、今回の結果は異なるルールでの測定結果が入り混じっていて複雑である。
1位のShoubuの値はこれまでのV1.2のルールでの測定値である。今回、登録された東工大のTSUBAME-KFCはV1.2ベースか、新ルールのV2.0を先取りした測定になっているのかは不明である。一方、前々回1位のL-CSCは、SC14での受賞講演で、コアフェーズ全体の消費電力を測定しており、InfiniBandのスイッチの電力も含んでいることを明らかにしている。
これに対して、受賞講演で、齊藤氏は次の図を見せ、Shoubuは全コアフェーズの平均消費電力を用いても5.911GFlops/Wであり、TSUBAME-KFCの5.33GFlops/WやL-CSCの5.27GFlops/Wを上回っていることを示した。
また、齊藤氏は、神戸の京コンピュータが設置されている理研AICSに「Ajisai(紫陽花)」と呼ぶ新システムを設置したことを明らかにした。Ajisaiは256PEZY-SCを使う1液浸槽のZettaScaler-1.5システムである。このシステムで16ノードとInfiniBandスイッチの電力を実測し、V2.0のルールを満たす測定で5.922GFlops/Wの値を得ているという。しかし、このシステムが動き始めたのが11月に入ってからであり、この結果が得られたのはGreen500の締め切りに数日、間に合わなかったとのことである。AjisaiのLINPACK性能は214.9TFlopsを計測しており、今回のTop500に入る値であるので、もし、間に合っていたらGreen500 2位(実力は1位であるが、値としてはV1.2ルールのShoubuには及ばないので)にランクされていたはずである。
齊藤氏は、次回のGreen500までにはAjisaiのGreen500性能を10~15%性能を引き上げるという。そして、時期は明示しなかったが、1PFlops以上の性能のShoubuフルシステムをV2.0のレベル2のルールで測定することを目指すと述べた。