Hot Chips 24 - 次世代コアを並べて発表し、存在感を示したAMD(3)

第2世代Piledriverコアと第2世代GPUを搭載したTrinity APU

ハイエンドのBulldozerファミリの第2世代がPiledriverコアである。このPiledriverコアとDirect X11をサポートするRadeon 2.0コアを搭載するのがAMDのTrinity APUである。このTrinityについてAMDのSebastien Nussbaum氏が発表を行った。

Trinityについて発表するAMDのSebastien Nussbaum氏

Trinityは、現在のLlano APUの次世代となるチップである。LlanoではCPUはBulldozerの前のStarsコアであったが、Trinityでは、これをPiledriverコアに変更し、GPUも「Graphics Core Next」と呼ぶ新コア(Core 2.0)を384個搭載して性能を上げている。また、HDメディアアクセラレータも性能を向上しているという。

AMDの第2世代デスクトップAPUのTrinityの概要(以降の図は、Hot Chips 24におけるAMDの発表スライドの抜粋)

Trinityは32nm SOIプロセスで作られ、チップサイズは246平方mm、総トランジスタ数は1.303Bに上る。チップは、次の図に見られるように左側にPiledriverの2コアモジュールを2つとペアとなるL2キャッシュが置かれ、右側はGPUとHDメディアアクセラレータが搭載されている。

Trinityのフロアプラン。GPUの面積の方がCPU 4コア＋L2キャッシュより大きい面積を占める

この図に見られるように、TrinityではCPUコア＋L2キャッシュが占める面積よりもGPU面積の方が大きくなっている。IntelのプロセサもGPUを搭載しており、Ivy BridgeではGPUの面積が増えたが、それでもGPU面積は4コアCPU＋LLCの60%程度の面積に留まっており、AMDのAPUはGPUを重視する面積配分になっている。

PiledriverコアのBulldozerコアからの改良点は、FMA3とかF16Cなどの命令の追加を除けば、分岐予測に第2レベルのプレディクタを付けて予測成功率が改善し、L1 TLB容量の倍増でTLBミスを減らし、ストアキューからのロードデータの取得を改善したりと、細かい改善の積み重ねのように見える。

PiledriverコアのBulldozerコアからの改良点

しかし、32nmプロセスの採用と相まって、Llanoと比べると、同一電源電圧では30%高いクロックで動作し、同じ35WのTDPの範囲では50%高いクロックの製品とすることが出来るという。

また、Bulldozerコアと比較すると、ループデテクタやウェイプレディクタの改良、クロックゲートの徹底などで、ダイナミック電力を10%低減したとしている。

Piledriverコアは、前世代のLlanoに使われたStarsコアと比較して、同じ電源電圧で30%高いクロックを実現。Bulldozerコアと比較しても10%ダイナミック電力を削減している

GPUは、単精度の浮動小数点積和演算(FMAC)を実行できる384個のRadeonコアを持っている。倍精度演算もサポートされているが、性能は単精度の1/4になる。

ディスクリートグラフィックスボードに使われているハイエンドのRadeon 7970は2048のコアを搭載しているので、それと比べるとTrinityのGPUは1/5弱であるが、ミッドレンジの下の方のGPUボードの性能を持っている。

そして、このRadeonコア16個をまとめたものをSIMDと呼び、4SIMDをまとめてSIMDエンジンと呼んでいる。なお、ディスクリートGPUでは、これをGCN Compute Unitと呼んでいる。

TrinityのGPU部の構造(グラフィックス専用機能は除く)

各SIMDエンジンは8KBのL1キャッシュと32KBのローカルデータシェア(ローカルメモリ)を持ち、独立のカーネルプログラムを実行することができる。

各SIMDエンジンは512KBのL2キャッシュを共有し、L2キャッシュをミスしたメモリアクセスはメモリコントローラを通して、CPUコアと共通のDDR3メモリにアクセスすることになる。

TrinityではチップをThermal Entity(TE)と呼ぶ領域に分割し、それぞれのTEは、そのアクティビティから消費電力と電力密度を計算してマネジメントプロセサに報告する。そして、TE間の熱の移動を熱抵抗と熱容量のモデルで表し、マネジメントプロセサは各TEからの消費電力の情報とこの熱RCのモデルに基づき、各TEの温度を計算する。

チップ内のTE間の熱の移動を熱抵抗と熱容量でモデル化し、各TEの温度を計算する

次の図は、アクティビティから計算された2つのCPUモジュールとGPU部の温度と、実測されたホットスポットの温度を比べたグラフである。矢印で指された実測値のグラフはCPUモジュールの計算値より3～5℃程度低いが、比較的良く一致していると言える。

2つのCPUモジュールとGPU部のアクティビティーから計算された温度と(矢印で指している)ホットスポットの温度の実測値を示すグラフ

Trinityでは、このメカニズムを使い、ホットスポットの温度に余裕のある場合は、電力をCPUやGPUに廻して性能の向上を行う「Turbo Core 3.0」と呼ぶ技術を使っている。

また、Trinityは無駄なリーク電力を削減するため、次の図に示すように細かい単位でのパワーゲートを行っている。

Trinityのパワーゲート領域。PCIeなどのI/Oポートは個別にパワーゲートが行える

GPUはSIMDアレイごとに電源のオン/オフができ、PCI ExpressのPHYやディスプレイのHDMIポート、グラフィックスメモリコントローラ、ディスプレイコントローラ、メディアアクセラレータなどもブロックごとにパワーのオン/オフができるようになっており、この点はIntelのプロセサよりキメ細かい。

このTrinityの性能を表す2枚のスライドが示された。最初のスライドはディジタルメディア処理とWebとプロダクティビティのベンチマークなどの性能を、Llanoと同じ35WのTDPで性能を比較したものであり、20%強から60%以上まで、平均的には30%程度の性能向上が見られる。

Llanoの性能に対するTrinityの性能向上は平均30%程度

次のスライドは3DMark Vantageの性能、PCMark Vantageの総合性能、バッテリライフ、最大Flops値を比較したもので、A10～A4は製品の性能クラスを示す。

A10～A4の各性能クラスでのTrinityとLlanoの性能比較

性能を表す左の2つのグラフでは、A8では20%～30%の性能向上が見られ、バッテリライフは10%程度長くなっている。計算上の最大Flops値はほぼ同じであるが、性能が上がっていることから、TrinityではLlanoよりも浮動小数点演算器の利用効率が高まっていることがわかる。

■Hot Chips 24関連記事
・【レポート】Hot Chips 24 - 次世代コアを並べて発表し、存在感を示したAMD(2) (2012年9月25日)
・【レポート】Hot Chips 24 - 次世代コアを並べて発表し、存在感を示したAMD(1) (2012年9月24日)
・【レポート】Hot Chips 24 - 学会初登場のIntelのメニーコア「Xeon Phi」(後編) (2012年9月19日)
・【レポート】Hot Chips 24 - 学会初登場のIntelのメニーコア「Xeon Phi」(前編) (2012年9月18日)
・【レポート】Hot Chips 24 - 乾いたタオルを絞るIvy Bridgeの省電力技術 (2012年9月7日)
・【レポート】先端プロセサの発表が盛りだくさん - Hot Chips 24が開幕 (2012年8月28日)