8月22日から24日にかけてスタンフォード大学で開催されたHot Chips 22において、中国科学技術院のWeiwu Hu教授が「GS464V」と呼ぶ512ビットのベクトルエンジンを持つプロセサを発表した。

GS464Vプロセサについて発表するWeiwu Hu教授

中国は2006年から2020年にかけて16の主要分野にそれぞれ50~100億ドルを投入して開発を行うという国家計画を遂行しており、その中でもCPU and OSは第1位の重要性をもつ分野であるという。なお、第2位はVLSIプロセステクノロジで、それ以外の主要分野としては、核融合炉、大型航空機、水質汚染のコントロールと水処理、有人月探検などが入っている。

GS464VのGSはGodsonの略で、Godsonプロセサは2002年のGodson-1から開発が始められ、2008年にはGodson-2Fプロセサが商用化されている。そして、今年、商用化を行うGodson-3Aプロセサは、1GHzクロックで動作する64ビットアーキテクチャの4コアプロセサチップである。そして、このプロセサコアは4コア接続が可能な64ビットアーキテクチャとなっているので、GS464と呼ばれている。

なお、現在のGodson-3Aは4コアであるが、開発中のGodson-3Bは今回発表のベクトル拡張を組み込んだ8コア、そして2012年には16コアのGodson-3Cを開発する予定である。

Godson-3Aプロセサの概要とチップ、パッケージ

そして、このGS464コアにスパコン用として512ビット幅のベクトルユニットを付加したコアがGS464Vである。中国は、今年6月のTop500では第2位となった星雲システム、8位となった天河一号を自主開発しているが、これらのスパコンのCPUはIntel製、GPUはNVIDIAやAMD製である。これを、CPUも含めて純国産スパコンを開発しようというのがGS464Vコアの開発の目的である。

GS464Vコアであるが、 GS464コアをベースにして、その浮動小数点演算ユニットを2個の256ビット長のベクトル処理ユニットに入れ替え、プロセサインタフェース部にベクトル用のDMA機構を付けたという構造になっている。

GS464Vコアの主要な仕様

GS464Vコアのブロック図

星雲システムなどではPCI Express経由でCPUにGPUを接続しているが、このようにCPUにベクトル処理ユニットを組み込む形式をHu教授はXPUアーキテクチャと呼び、CPUの高い汎用処理性能とGPUの高効率の処理を両立させることが出来るという。そして、XPU=CPU+DSP+MPU+GPUで、すべての仕事をこなせるという。

XPUアーキテクチャの概念図

XPUアーキテクチャでは256ビット長の128本のベクトルレジスタを持ち、この図のようにVRとL2キャッシュ、VRとメモリ、L2キャッシュとメモリ間に高速のデータ転送パスを設けている。しかし、単純な転送だとデータの並びの順番が処理とマッチしないという場合があり、次の図に示すように並べ替え機能をもったGodson Super Link(GSL)というベクトルDMA機構を設けている。

GSLの概要

このGSLは3台あり、CPUから見るとコプロセサとして動作する。Hu教授によると、XPUアーキテクチャを使う8コアのGodson-3Bシステムは行列積においてピーク性能の93%以上を出せるようになるという。しかし、普通のNehalem CPUを使う日本原子力研究開発機構(JAEA)のクラスタで、行列積より難しいLINPACKでピーク比95.7%を出しているので、このデータだけからは、GSLがどの程度有効であるのかは分からない。

XPUを使ったFFT計算の図

しかし、FFTを上の図のように計算することができ、1024点の複素FFTをピーク性能の87%以上の効率で計算できるという。ただし、FFTは積和演算をうまく使うことが出来ないので、通常、FMA演算器をベースとする浮動小数点演算ユニットではピークFlopsの50%を超える値は得られない。したがって、この87%以上という数字は、積と和が別々の演算で各サイクルに1回というものをピーク性能としているのではないかと思われる。とするとFMA演算換算では半分になるが、それでも40%を超えるピーク比率が得られており、これは結構高い値で、GSLの有効性を示す数字と言えるのではないかと思う。

GS464Vコアのレイアウト

このGS464Vコアのレイアウト図を見ると、右側の6割がベクトルユニットであり、左側にもかなりの面積を占めるVECDMA(GSL)があり、いわゆるCPUの部分はコア全体の3割程度の面積となっている。また、論理ゲートの分布は不規則なクラスタとなっており、フルカスタムではなく、自動配置配線を使って作られていると見られる。

このGS464Vコアを8個搭載するGodson-3Bプロセサは、STMicroelectronicsの65nmプロセスで作られ、1GHzのクロックで動作し、チップ全体のピーク演算性能は128GFlopsである。

GS464Vを8コア搭載するGodson-3Bチップのレイアウト図

そしてL2キャッシュは物理的には8個に分割されているが、合計で4MBであり、8コアに共通の2次キャッシュとなっている。そして、チップの下側の部分に400MHzのDDR2/3をサポートする2個のメモリコントローラ(MC)、そしてチップの上側にプロセサ間を2次元メッシュ構造で接続するためのHyperTransportコントローラが2個置かれている。

8コア搭載で65nmという1~2世代古いプロセスを使っているが、チップサイズは300平方mmと小さく、1GHzのクロックで消費電力は約40Wであり、他社のマルチコアチップより電力効率が高いという。今年の5月にテープアウトを行い、現在、ウェハの製造中であり、9月中には最初のチップを入手できる予定である。

また、このGS464Vコアはマルチメディア処理にも向くので、1コアで各種周辺機能を集積したGodson-2Hプロセサにも搭載されることになっている。