「Sidney Fernbach賞」は、HPCの革新的な使い方を行ったという業績に対して贈られる賞である。今年のSidney Fernbach賞は東京工業大学(東工大)でTSUBAMEスパコンを開発してきた松岡聡 教授に贈られた。
「Seymour Cray Computer Engineering賞」は、主にメーカーで優れたスパコンの開発に大きな貢献をしてきた人に与えられ、過去に、元NECの渡辺氏、元富士通の三浦氏が受賞したことがあるが、Sidney Fernbach賞の受賞は、松岡教授が日本人としては初である。
「Ken Kennedy賞」、「Sidney Fernbach賞」、「Seymour Cray賞」の受賞者は、SCで記念講演を行うのが決まりとなっており、SC14において松岡教授が講演を行った。
松岡先生は、1992年ころには東京大学の米澤研究室で、旧電子技術総合研究所の作った80ノードの「EM-4」や富士通研究所が開発し富士通が商品化した512ノードの「AP1000」を使って並列処理システムのソフトウェア研究を行っていた。単一の巨大ベクトルマシンが主流のその時代には、それは主流ではなく、風変りな変な研究と見られていた。
その後、1996年に東京工業大学に移ったが、予算もわずかで、他から流用した6台のSunワークステーションでグリッドとクラスタのテストベッドを作ったという。
そして、学生たちと一緒に、自分たちで試行錯誤しながらクラスタシステムを作り、1999年から2001年に掛けて「Presto II」と「Presto III」を作って、初めてTop500にランクインした。
なお、これらの写真で前に座っている二人は、IEEEの授賞委員会のSidney Fernbach賞選考担当のローレンスバークレイ国立研究所副所長のHorst Simon氏と、招待講演セッション議長のヒューストン大のBarbara Chapman教授である。
このTop500ランクインをばねに、2002年から2003年にかけて~2TFlopsのシステムを作り、さらにその上のTop500での47位を達成した。当時の、東京工業大学の計算センターのメインのマシンは400GFlops程度で、松岡先生のグループが作ったマシンの方が大幅に性能が高かった。
この成功で計算センターの所属になり、これまでの研究マシンの開発から、大学センターの実用機を作る立場になったという。そして小さなクラスタをグリッドとして繋ぐという構成と、大きなクラスタを中心とする構成の両方を持つ東工大のキャンパスグリッドを開発した。これが2002年から2006年のことである。
キャンパスグリッドは約650ノードで2.5TFlopsの性能を持つところまで発展し、多くの実アプリがセンターのスパコンから移植されて使われ、大成功であった。また、小さなクラスタのグリッド接続よりも大きなクラスタに集中した方が、性能・設備・管理など、すべての面で効率が良いことが分かった。
2002~2003には~2TFlopsのクラスタを作ってTop500で47位。センターのマシンの5倍程度の性能を実現 |
センター所属となったので、2002~2006にはキャンパスグリッドを構築。2.5TFlopsの能力で、センターのスパコンから多くのアプリが移植されて使われた |
その結果を踏まえて、ファットノードのグリッド型のクラスタである「TSUBAME 1.0」を開発した。このシステムは2006年6月のTop500で7位にランクされ、2002年に1位になった地球シミュレータの2倍の性能を持ち、国内の他の全大学の計算センターの合計の2倍の計算能力を持っていた。世界的なマルチベンダーとの協調を必要とする、この例を見ないシステム構成は、風変りの極みと見られていたという。
Fat NodeのGrid Clusterという構成のTSUBAME 1.0は風変りな構成の極みと見られていた |
しかし、TSUBAME 1.0は85TFlopsを達成し、2006年6月にTop500の7位にランクされた |
このころには消費電力が大きな問題になり始めてきたので、省電力のEfficionプロセサを多数高密度に接続するMegaProtoクラスタを、京大・筑波大・東大などとの研究プロジェクトで共同試作した。続いて、2004年頃からHPCでの利用の基礎研究を開始し、GPUの高い性能/Wの可能性に着目していたが、2007年には128台のGPU(GTX9800)を使うクラスタを試作した。後者では、CPUと比較して圧倒的に高速なFFTを開発し、SC08で発表するとともに、それを東工大・秋山教授の分子のドッキングシミュレーションに計算カーネルとして組み込み、4ラックのBG/Lと比較して同等の性能で4倍の性能/Wを達成した。
この成果を踏まえて、2008年にはTSUBAME 1.0に170台のTesla 1070 GPUを増設し、「TSUBAME 1.2」とした。この時は、稼働中のシステム全体に予定されていなかったGPUを後付アップグレードするという離れ業を行っている。
ゲーム用のGPUをスパコンに使うのは絶対に風変りと言われたが、SC08でGordon Bell特別賞を受賞した青木教授のシミュレーションではBG/Lの4倍のPerf/Wを実現 |
TSUBAMEの稼働中に、GPUを予定外に増設してTSUBAME1.2にアップグレード |
そして、2010年には、当時、実運用のスパコンとしては最もグリーンなスパコンと言われる「TSUBAME 2.0」を稼働させる。このシステムでは、Tesla M2070 GPUとWestmere EP CPUは汎用品であるが、サーバやラック冷却系などはHPと協業して開発したカスタム設計である(後日商品化)。TSUBAME 2.0は2013年に「TSUBAME 2.5」にアップグレードし、単精度17.1PFlops、倍精度5.76PFlopsのピーク演算性能となり、これはカスタム設計のK ComputerやSequoiaとそれほど変わらない演算性能である。しかし、TSUBAME 2.5のコストは、これらのマシンより大幅に安い。それは、TSUBAMEはデザインスパンが短いので最新技術を採用できたからだ、と松岡教授は主張している。
2010年にTSUBAME 2.0を稼働。サーバはHPと協業して開発。システムのインテグレーションはNEC |
2011年のK ComputerやBG/Q Sequoiaと2013年にアップグレードされたTSUBAME 2.5は、似たような性能であるが、コストは大幅に安い |
そして、現在はTSUBAME 3.0以降のシステムの開発を行っている。TSUBAME 3.0は2016第2四半期~第3四半期稼働の目標で、現在、設計中である。
システム全体では~20PFlops程度の演算性能と~5PB/sのメモリバンド幅をもち、0.6PFlops/Rackという、TSUBAME 2.0の10倍の実装密度を目指している。また、最新の電力制御技術、液浸冷却やエネルギー回収技術を組み合わせ10GFlops/Wを目指す。
ネットワークは1Pbit/s程度のバイセクションバンド幅を持たせる。メモリ階層は深くし、超高バンド幅のNVM(不揮発メモリ)を使い、複数PBの容量、数TB/sのバンド幅、数100M IOPSを目指し、次世代の科学用のビッグデータのサポートを実現する。
運用に関しても、電力に着目して資源管理をダイナミックに調整する運用を行う。また、高い耐故障性を実現する。
これらの実現のために、新しいメモリシステム、ペタスケール以降のネットワーク、グリーンコンピューティング、科学用の極端に巨大なビッグデータ処理、ペタスケール以降に対応するプログラミング、メニーコア向けのスケーラブルなアルゴリズムなどの研究を進めている。
世間ではGBにも満たないデータでもビッグデータと呼ばれたりするが、科学で出てくるビッグデータはTBは序の口であり、PBも多くみられ、今後急速にEBになる。この巨大なデータに高速のアクセスを可能にするためには、深い階層を持つメモリシステムが必要になる。これをMRAMやReRAMなどの次世代NVMを活用して実現していく。
プロセサの技術としては、高密度、高性能、低電力のスマホなどの技術を取り入れることにより、2021~2022年には7nm SoCテクノロジで、1TFlopsのCPU+GPU演算性能、200GB/s以上のメモリバンド幅を目指す。NVM容量は1TBで、ノードの消費電力は5~15Wという仕様である。
高精度の気象解析、巨大グラフ、巨大キーバリューストア、その他のビッグデータを扱うには次世代NVMを使う深いメモリ階層が必要 |
左側の現在のTSUBAME-KFCのノードと比べ、右のスマホは高密度、高性能、低電力。2021~2022には、この技術の発展形がノードに使われる |
サーバ間の信号伝送は、多波長の光を使うDWDMを使い、32波長で5.12Tb/sで伝送を行い、シリコンフォトニクスで作られたクラスタスイッチで信号経路をスイッチする。
ノードはプロセサSoCの上にDRAM、さらにその上にNVMチップを3D積層したモジュールと光インタフェースLSIをパッケージ基板に集積する。そして、光インタフェースLSIから直接光ファイバを引き出すという構造を考えている。
サーバラック間は32波長のDWDMで5.12Tb/sの伝送を実現。シリコンフォトニクスのスイッチでルーティングを行う |
2020年のTSUBAME 4では、CPU、DRAM、NVMを3Dスタックし、これと光インタフェースLSIをパッケージ基板に搭載。斜めの部分は、チップからの光ファイバを示す |
2021~2022年の「TSUBAME 4」では京コンピュータを一つの箱(Golden Box)に収容するのが目標である。この箱は、10PFlopsの演算性能と10PBのメモリを持ち、サイズとコストは京の1/500、消費電力は1/150であるが、5倍の容量のDRAM+NVMを持つ。
右の写真は、SC14で展示されたGolden Boxのプロトタイプで、NVIDIAのTegra K1ボードとSSDボードのペアからなるノード36台からなっている。単精度の演算性能は約11TFlops、メモリバンド幅は約700GB/s。消費電力は100~700Wである。発熱はTSUBAME-KFCと同様に合成オイルの液浸で冷却している。
2021~2022のTSUBAME 4では、京コンピュータを1つの箱に収容。10PFlopsの演算性能と10PBのメモリ。京の1/500のサイズ、1/150の電力、1/500のコストで5倍のメモリ |
SC14で展示されたGolden Boxのプロトタイプ。NVIDIAのTegra K1 36ノードで単精度11TFlops。電力100~700W。合成オイル液浸で冷却 |
超多数のノードを持つスパコンでは故障が大きな問題となる。これに対しては、故障を修理するのではなく、脳のように故障した部分を迂回して使うという研究を行っている。現状では、ネットワークの故障に対して、適切なトポロジとルーティングで性能はダウンするが動作を続けられる手法を開発し、SC14において発表している。
そして、2025年かそれ以降となる「TSUBAME 5」ではポストシリコンのロジックデバイスやスピントロニクスを使うメモリなどが視野に入る。また、プロセサのアーキテクチャもニューロや量子コンピューティングなども検討対象である。しかし、システム構成はどうなるか?、ソフトウェアは?、アルゴリズムはどうなるか? など、まだ、見えていない項目がたくさんあるという。
巨大クラスタでは故障が問題。故障を修理するのではなく、故障を迂回して使うことを研究している |
2025年かそれ以降となるTSUBAME 5ではポストCMOSのロジックデバイス、スピントロニクスを使うメモリ、ニューロや量子コンピュータも視野に入る |
最後に、ジョブズのThink Differentを引用して、「風変りであれと言いたい。世の中は理解してくれないが、10~20年後に、あなたが正しいことが理解されるかも知れない。しかし、それにはあなたが正しいことを証明する努力が必要である。エクサやそれ以降の時代には風変りの必要性は高まる。だから、私はZettaScaleが実現する20年後までは引退したくない。」と述べて、松岡教授は受賞記念講演を終わった。