GTC 2012 - 見えてきた次世代科学技術計算向けKeplerの実力(基礎編)

NVIDIAのGPU Technology ConferenceにおけるJen-Hsun Huang CEOの基調講演の中で次世代の科学技術計算向けKepler GPU(GK110)と「Tesla K10」と「Tesla K20」というボード製品が明らかにされた。


GTC2012においてComputing用のKeplerについて発表するJen-Hsun Huang CEO	基調講演で発表されたTesla K10とK20

KeplerにはGK104とGK110という2種のチップが存在

Teslaは科学技術計算向けの製品であるが、実は、K10とK20では使用するGPUチップが異なっている。K10はGK104と呼ぶコンシューマ用のGTX 680などハイエンドグラフィックスカードに使用されているものと同じチップを2個使っており、K20はGK110と呼ぶ今回明らかになったチップを1個搭載している。

GK104チップのトランジスタ数は3.54Bであるが、GK110チップは7.1Bトランジスタを集積しており、商用の半導体チップとしては最大規模のトランジスタ数を誇るチップであるという。

GK110は、この後に述べるように、前世代のFermi GPUに対してピーク演算性能が上がっただけでなく、その性能を引き出すための多くの改良が加えられている。一例であるが、スパコンの性能ベンチマークであるLINPACKの主要部分である行列積を計算するDGEMMという処理は、Fermiではピーク演算性能の60～65%を引き出すのが限界であったが、GK110では80%以上を引き出せるようになったという。

GK104(左)とGK110(右)のチップ写真。正確ではないが、おおよそこの程度のサイズ比率であると思われる

前世代のFermi GPUでは、32コアを纏めてSM(Streaming Multiprocessor)としていたが、Keplerでは192コアのSMX(Stream Multiprocessor eXtendedを意味すると思われる)が基本構成単位となっている。

このチップ写真に見られるように、GK104では中央の十字の領域で区切られた4つの象限に、それぞれ2個のSMXペア置かれている。中央の十字になった部分には全体の制御部、L2キャッシュ、ラスターエンジンなどが配置されていると考えられる。一方、GK110は中央の横方向の細い帯で区切られ、その上下にそれぞれ3個の大きなブロックが見える。大きなブロックの内の5個が、それぞれ3個のSMXを含んでおり、残りの1個と帯状の部分が全体の制御部、L2キャッシュ、ラスターエンジンなどと考えられる。

GK104の全体構成図。ペアのSMXが4組存在し、中央にL2キャッシュが描かれている

GK104の全体構成図では、GPCと呼ぶラスターエンジンを共用するSMXのペアが4組存在し、その中央にL2キャッシュが描かれている。そして外側にCPUとのインタフェースとなるPCI Express、命令処理を行うGigaThread Engineや4個のGDDR5メモリインタフェースが描かれている。

一方、GK110の全体構成図には15個のSMXの中央にL2キャッシュがあり、外側にPCI Express、GigaThread Engineと6個のGDDR5メモリインタフェースが見られる。

GK110の全体構成図。15個のSMXの間にL2キャッシュが描かれている

KeplerアーキテクチャのGPUを使う製品としては、コンシューマ向けのGeForce GTX 670/680/690の3種類のグラフィックスカードと、科学技術計算向けのTesla K10とK20がある。GTX 670は680のダウングレード版という感じであるので省略して、これらの製品の諸元を比較すると、次の表のようになる。なお、K20はその存在は発表されたが、製品としての発売は4Qとなるため、今回のGTCでは詳細は発表されていない。このため、K20のカラムには?が付いている所が多い。

	GTX 680	GTX 690	Tesla K10	Tesla K20
GPUチップ	GK104	GK104×2	GK104×2	GK110
クロック	1006MHz (1056MHz boost)	915MHz(1015MHz)	745MHz	?
SP Flops/Cycle	8×2×192=3072	8×2×192×2chip=6144	8×2×1192×2chips=6144	15?×2×192=5760
SP性能	3.09TFlops	5.62TFlops	4.58TFlops	?
DP Flops/Cycle	8×2×8=128	8×2×8×2chip=256	8×2×8×2chip=256	15?×2×64=1920?
DP性能	128.8GFlops	234.6GFlops	190GFlops	>1TFlops?
メモリバス	256bit	256bit×2	256bit×2	384bit
メモリバンド幅	192.2GB/s	384GB/s	320GB/s	240GB/s?
消費電力	195W	300W	<225W	<225W?
NVIDAのKeplerベースの製品の比較

なお、 GK110チップには15個のSMXが載っているが、Tesla K20のコア数は公表されていない。前世代のFermi GF100チップには32コアのSMが16個集積されていたが、製品として使用するSMは14個ということにして、2個のSMは歩留り向上のための冗長SMとしていた。今回のGK110でも、製造歩留りが低ければ当初は1～2個のSMXを削って製品化される可能性もあり、この表では15?と書いている。