RightMark Memory Analyzer 3.8(グラフ13~19)
cpu.rightmark.org
http://cpu.rightmark.org/
ではいよいよRMMAの結果を見てみたい。ただあまりに項目が多いので、今回はHT無しのケースは省き、975Xと980Xの比較としている。またRMMAのみ、Turbo BoostをDisableにして測定を行っている。破線が975X、実線が980Xの結果である。
まずグラフ13がD-Cache/RAM Bandwidthの結果である。少なくともL2 Hitの256KBあたりまでのグラフを見る限り、975Xと980Xの間には明確な差が無い。差が出てくるのはL3の領域であり、Readで1Byte/cycle程度、Writeは最大2Bytes/cycle程度の性能差が見られる。ただ特にWriteの場合は激しい凹凸が見られるあたり、単にスコアが安定していないという感じもする。Bandwidthそのものが低いというよりもLatencyの変動が大きく、それがBandwidthの差として現れるということだ。その証拠に、ReadにしてもWriteにしても、時折同じ程度のBandwidthの結果が現れることがある。Bandwidthそのものが低ければ、こうはならないだろう。
また完全にメモリアクセスとなる領域(グラフ14)では、その差が僅かという事も判る。流石にL3が12MBもあると、完全に影響を消すのが難しいためか多少下回ってはいるが、CopyのBandwidthが975Xで1.78Bytes/cycle、980Xで1.61Bytes/cycleという微妙な差でしかないあたり、メモリコントローラの性能が下がっているというよりは、L3キャッシュの影響が大きく、これが反映されていると考えたほうがよさそうである。
というわけでLatencyを確認してみると、差が出にくいForward/Backward Access(グラフ15)ですらForwardで1Cycle、Backward2CycleほどL3のLatencyが増えているし、Random/Pseudo-Random(グラフ16)ではそれぞれ7Cycle/3CycleのLatency増となっている。またどちらのグラフでも、完全にメモリアクセスに入ってからのLatencyも980Xの方が大きくなってる事が判る。恐らく大容量化と省電力化の機構を追加したペナルティとして、多少のLatency増加があったと判断するべきであろう。
その一方で、CPUパイプラインそのものには大きな変更は無いようだ。グラフ17では代表例としてPrefixed CMP #1のデコード帯域を示してみたが、これを含むRMMAに用意されている全てのDecode Bandwidth Testで、少なくともL2までは完全に同じ傾向となっており、すくなくともパイプラインに起因する何か相違点の様なものは見つからなかった。他にTLBなども比較してみたが、いずれも傾向に差はなかった。
ただ意外な事に、I-ROB Depthでは明確な差が見られた。グラフ18はForward/Backward、グラフ19はRandom/Pseudo-Randomの結果だが、Forward/Backwardでは、なぜかNop Countが70個あたりまで明確に980Xの方がLatencyが大きくなっている。一方Random/Pseudo-Randomの場合は、ほぼ差が一定ながら常に980XのLatencyが大きくなっているのが判る。仕組みから考えればROBはまずLSDの効きが関係してきて、次がL1/L2キャッシュとなる筈だけに、この理由が容易には見当付かない。LSDそのもののLatencyが増えているとすればDecode Bandwidthにも影響が出るだろうからだ。そういうわけで理由は不明ながら、同一周波数同士のCore i7-975と比較した場合、性能はやや落ちる傾向にあると見るのは間違っていないだろう。