以下、いつもの様にベンチマーク結果をご紹介する。今回はファーストインプレッションということで、あまり深く分析は行う予定はないし、RMMAを使ってのアーキテクチャ分析も次回送りとさせていただく。
Sandra 2011 SP1 Engineer Edition(グラフ1~11)
SiSoftware
http://www.sisoftware.co.uk/
まずは定番Sandra 2011 SP1。グラフ1がDhrystone、グラフ2がWhetstoneの結果である。この2つについてはAVXの対応はまだで、なのでiSSE4.2/iSSE3でのテスト(Phenom II X6 1100TはSSE 4.2に未対応なのでALUのみ)となる。.NETやJAVAではちょっと結果の変動が面白いことになっているが、ことSSE系を使った場合は、FX-8150はCore i7-2600Kには及ばないものの、Core i5-2500Kと互角といったところで、これはまぁAMDの宣伝する通りである。面白いのが次のProcessor Multi-Mediaの結果(グラフ3)で、Integerに関してはFX-8150が圧倒的に高速である。これはAVXを使っての結果だが、ただAVXは全部速いか? というとFloat/Doubleではそれほどでもない(というか、Core i5-2500Kにも及ばない程度)というあたりは、一概に評価がしにくい感じである。
グラフ4はCyrptgraphyであるが、AESに関してはSSE4.2あるいはSSE4Aで対応命令が追加されているため、Phenom IIを除くとみな高速になるのはある意味当然である。面白いのはSHA256のHashingで、なぜかFX-8150が大きく性能を落とす結果になっている。
グラフ5がMulti-Core Efficiencyの結果であるが、ちょっとFX-8150の結果の傾向が異なるのが判る。Phenom IIはコア間のデータ交換にかならずL3を通る(Llanoに搭載されるK10.5コアではキャッシュ間でのコヒーレンシを取るメカニズムが追加されて若干改善したが、K10コアはこれを持っていない)関係で帯域が遅く、かつレイテンシも大きかったのが、Bulldozerでは2コア間でL1を共有している関係で、より高速にデータ交換が可能になったためと思われる。ただレイテンシが大幅に上がっているのは後で検討が必要だろう。
グラフ6がそのDetailだが、FX-8150の構造がCore i5-2500Kにやや近似した構造になっているのはセオリー的には正しいといえる。もっと言えば、もう少し性能が上がっていても良い気はするのだが。
グラフ7はMemory Bandwidthである。Integer/FloatはStreamの結果、64M-1Gは次のグラフ8の結果のうち、64MB/256MB/1GBの結果の平均をまとめたものである。一見して判るのは、大幅にメモリアクセス性能が改善されていることだ。まだCore i5/i7には及ばないものの、だいぶ性能が改善されていることが判る。
その一方で、グラフ8を見てみるとちょっと面白い。こちらはL1キャッシュの範囲からの帯域をまとめたものだが、L1キャッシュあたりの帯域がPhenom II X6 1100TとFX-8150で殆ど変わらないという現象が起きている。このテストの場合は全コアがフルに動くことになる。Turboを無視すれば動作周波数は3.3GHz vs 3.6GHzで、1割程度の差。一方コアの数は8:6だから、理論上はL1領域でFX-8150の帯域は1.45倍程度になってもおかしくないのだが、トータルで同じということはコア1個あたりのメモリ帯域が3分の2になっている、という計算になる。これはBulldozerの構造を考えれば納得できる数字であり、これがモロに示された形になる。
グラフ10と11は、Cache/MemoryのLatencyの結果であるが、FX-8150の結果はあまりよくない。このあたりが、先のグラフ5の非常に大きなLatencyに繋がったものと想像できる。この辺は後ほど、RMMAを使ってもう少し詳細に分析したいと思う。
最後のグラフ11はVideo Memory Bandwidthであるが、別にGeForce GTX 580のメモリ帯域を調べたい訳ではなく、PCI Expressの帯域がどの程度出るのかの比較のために利用した(このため、Internal Bandwidthの結果は省いている)。結果は? というと、同じチップセットを使っているにも関わらずFX-8150の結果はPhenom II X6 1100Tよりもだいぶ良くなっているのが判る。