2014年11月17日にNECは、SX-ACEの次世代となるベクトルスーパーコンピュータ「Aurora」の開発を開始したと発表した。提供時期は2017年であり、3~4年後である。プレスリリースでは、現行のSX-ACEと比較してラックあたり10倍の性能、設置面積30分の1以下という程度の情報しかない。
ということで、スパコン関係最大の学会であるSC14の展示会場のNECのブースを訪ねて展示員に質問したところ、Aurora関連の展示は無いとのことであった。しかし、Exhibitor Forumという出展者の発表で百瀬氏がAuroraについて説明すると教えてくれた。
SCでは、主要な展示会社に30分の発表時間が与えられるExhibitor Forumという時間が設けられており、自社の製品のアピールやロードマップなどを発表している。
NECの発表者は、昨年に続いてITプラットフォーム事業部第三サーバ統括部技術エキスパートの百瀬真太郎氏である。
Auroraの製品としての狙いは、従来の科学技術分野だけでなく、金融シミュレーション、イメージ解析、暗号解析、社会分析、健康管理、創薬などのバイオテクノロジなどに適用分野を広げることであるという。暗号解析やイメージ解析では、専用演算回路を付けたり、整数系の演算能力をあげるなどの、ハードウェアの変更が必要になりそうであるが、その他の分野は従来のスパコンが扱ってきた分野であり、ソフトを用意するというような対応ではないかと思われる。
そして、Auroraの売りは、従来のベクトルスパコンの強味である強力な大型プロセサコアと大きなメモリバンド幅から生まれる高い連続実行能力、値段、および、電力あたり最大のメモリバンド幅の提供と標準の環境と最適化されたソフトによる使用の容易さであるという。
第1点はベクトルスパコンそのものの継承を意味する。そして第2点は、最低のコストと消費電力でメモリバンド幅を提供するということであり、メモリバンド幅がネックとなる用途には朗報である。しかし、どのようにしてこれを実現するかについては、まだ、明らかにはなっていない。
第3点は、従来のNECスパコンの環境ではなく、標準の使用環境を使い、最適化されたソフトを提供すると述べており、これは従来のSXシリーズのスパコンとは大きく異なる。
現状の市販プロセサでは、個々のプロセサは弱体で、多数のプロセサを並列に使う必要がある。このため、スケーラビリティが悪く、プログラムも複雑になるという。また、通常のプロセサではメモリバンド幅が小さく、演算性能に対するメモリバンド幅の比率が小さく、メモリがネックになって性能が出ない。また、通常のプロセサでも幅の広いSIMD演算が使われてきており、結局ソフトウェアはベクトル化することが必要になるという。
これに対して、Auroraでは強力なプロセサと大きなメモリバンド幅を持っており、ベクトル化の技術も従来から経験が豊富であり、これをさらに改良して行く。このように、Auroraは通常のプロセサの持つ問題点を解決し、HPCからビッグデータまで広い範囲の分野に適したプロセサとなるという。
そして、Auroraは従来のSXスパコンから高い連続実行性能、PCクラスタから標準環境を受け継ぐプロセサとなる。
これをより詳しく示すのが次の図で、OSはPCクラスタで使われているLinuxを使用し、標準的なツールや、I/O、ネットワークもx86サーバのものを受け継ぐ。一方、スパコン用のツールやコンパイラはSXのものを受け継ぎ、従来のSXスパコンのOSや専用のI/Oやネットワークは継承しない。
x86のLinuxやツールをどのようにしてAuroraで動かすのかと百瀬氏に質問したところ、リコンパイルで動かすという返事であった。とすると、Linuxやオープンソフトのツール類は移植が容易であるが、I/Oやネットワークアダプタのドライバ類は独自開発が必要となりそうである。そうなると、例えば、InfiniBandのアダプタなどのドライバがタイムリーに提供されるのかが心配になる。また、x86で動くサードパーティのソフトも、すべて移植が必要であり、どの程度の品揃えができるのかが気になるところである。
そしてAuroraでは、デスクサイドのタワー型のエントリモデルから、ラックマウントのミッドレンジサーバ、スパコンまで広いレンジの製品化を予定しているとのことである。
百瀬氏の発表では触れられなかったが、日経新聞の報道では85TFlopsという数字が載っている。現行のSX-ACEの最小規模のモデルは64ノードのシステムで、ベクトル演算性能は16.4TFlopsであるので、Auroraのエントリモデルの85TFlopsは約5倍の性能ということになる。
また、日経新聞では現行機は5000万円であるが、Auroraは1/10の500万円と報じられている。これが実現されれば3~4年で25倍の性能/価格比の改善であり、x86サーバと十分対抗できる価格になる。