産業総合技術研究所(AIST)は光スイッチを開発しており、次の図のような光スイッチを用いたデータセンターのイメージ図をSC14で発表している。

ノードからDWDMの光ファイバを出し、光スイッチで相互接続する産総研のシステムイメージ

産総研の開発した32×32の光スイッチ

また、前にあげたStrawmanのシステムのように高度に集積されたシステムになると、故障が起こった時に修理することが難しくなる。このため、故障しても修理せず、ネットワークのルータで故障モジュールを迂回してシステムを動作させるというアーキテクチャも必要となる。ルーティング方法を改善する必要があるが、この研究では、故障を修理せず迂回ルーティングで対応することは可能であることが分かったという。

故障を修理せず、ルータで迂回するシステム。右は故障したリンクのパーセンテージとスループットの低下を示すグラフ

2025年のポストムーアの計算ノードのイメージは、5nm世代のプロセスを使い、CPUは4TFlopsの性能で、さらにGPUが付く。これを16TB/sのバンド幅の高速メモリと1TB以上の容量のNVM(不揮発性メモリ)。1TB/sの光ネットワークを15~25Wで動かす。

これができると、京コンピュータは液冷のボックス1箱に収容できるようになり、1万ノードのシステム全体ではピーク演算性能は20PFlopsで階層メモリは20PB。ネットワークは1TB/sのバンド幅で、バイセクションバンド幅は100Pb/sを超える。

2025年には京コンピュータが1つの箱に収まり、システム全体は1万ノードで20PFlops、20PBメモリ。100Pb/sを超えるバイセクションバンド幅となる

ポストムーアの時代は、Flopsの高いシステムは作れなくなるので、性能向上の原動力をFLOPSからBytesに替える必要がある。ポイントの第1はNVMを使ってメモリ容量を増加させる。NVMはDRAMのようにデータ保持に電力を必要としないので容量を増やすのに都合が良い。ポイントの第2は革新的な3D積層でバンド幅を増大する。具体的にはチップを薄く研磨し、高密度のTSVを実現する。磁界結合や容量結合という可能性もある。

ポイントの第3は、光スイッチである。従来のように光から電気に変換して、電気でスイッチして、また、光に戻すという方式ではなく、光のままでスイッチを行う。バンド幅が高く、加えてOE、EOの変換が各1回で済み、電力効率が向上する。ポイントの第4はドメインスペシフィックなアーキテクチャとパッケージングで、FPGAのようなダイナミックに再構成できる機能を組み込み、そのタスクに適したロジックを作って処理を行う。これにより、低電力で処理を加速することができる。また、PIM(Processor in Memory)処理の組み込みも考えられる。

ポストムーアのアーキテクチャはFLOPSからBytesへの転換が重要

ということで、ムーアの法則が止まることは社会的にも大きなインパクトがあり、計算機科学と計算科学の総力を挙げて、替わりとなる性能向上方法を見出していくことが必須である。その候補として、松岡先生は、FLOPSは増えないがBytesの伸びは継続でき、これを原動力として性能向上を継続して行くことを提案し、その実現に必要な研究への参加を呼びかけた。

なお、DWDMの技術をスパコンのシステム内のネットワークに使用すれば、バンド幅が増やせて、電力も抑えられるというのが松岡先生の主張であるが、SC15のパネルディスカッションなどでは、データの移動は大きなエネルギーを必要とするので、データ移動を減らすアーキテクチャやアルゴリズムが重要という意見が多かった。また、DWDMは長距離通信の分野では確立した技術であるが、これらの通信機器は高価であり、大量に使用するスパコンなどのシステムを安く作れるかどうかは、今後の開発に掛かっている。