ということで、以降のグラフ14~16はD-Cache/RAM Bandwidth、グラフ17~20はD-Cache/RAM Latencyの結果である。
まずRead(グラフ14)を見ると、C-SteppingがMemory Accessで4.5Bytes/cycle程度なのに対し、D-Steppingでは5Bytes/cycle程度に向上しており、若干ではあるが性能の向上が見られる。注意していただきたいのは、これはあくまでも1Threadでの結果な事。グラフ10で判るとおり、Core i7のMemory Bandwidthは1Threadでは使い切れない。したがって本来ここは性能差があるのがおかしい領域となる。
ここで考えられるのは、Bandwidthそのものが増えたのではなく、Latencyの削減により見かけ上Bandwidthが増えたように表示されている可能性が高いことだ。これはRMMTではむしろ(微妙ではあるが)D-SteppingのBandwidthが下がっている事を考えると不思議ではない。RMMTの方は誤差の範囲と思うが、もし本当に帯域がこれだけ異なっていれば、誤差どころの話ではなく、もっとD-Steppingのスコアが跳ね上がっているからだ。
では何でLatencyがBandwidthに繋がるか、というと今度はテスト方式の違いとなる。RMMAの方はサイズを変えながら(=アクセス領域が変化する)のテストなので、その都度新しい領域をアクセスすることになり、Latencyが関係してくる。一方RMMTの方は固定サイズ(今回は何時も通り10MBに設定)のバッファをひたすらアクセスするテストだから、Latencyが関係するのは最初だけで、30秒後にはもうLatencyなんぞ関係なくなってしまう。
逆にWriteの方(グラフ15)は? というと、Memory Accessの方はもう変わらないがむしろL3キャッシュのBandwidthに変化が出ている。Memoryに関係が無いのは、SDRAMはWriteが基本的にSingle Write Cycleに入るからで、Burst Transferが使えないからこちらがボトルネックになって、多少Memory Controllerが遅くても遮蔽されるためだ。一方L3に関しては仔細にみるとスパイクが細かく出ており、6.6Bytes/cycle~7.3Bytes/cycleの両方を取りえるが、7.3Bytes/cycleとなる頻度はD-Steppingの方が圧倒的に多い。このあたりは、Write Bufferのチューニングを若干施した印象を受ける。
基本的には小チューニングレベルの話なのだろう、というのはグラフ16でも見て取れる。Read/Writeが煩雑に切り替わるCopyでは、もうBandwidthは殆ど同一で、強いて言えばL3→MemoryのあたりのBandwidhtの落ち方がD-Steppingがやや緩やかという程度。フルチューニングを掛ければもう少しプロファイルが変わりそうなもので、逆に言えば本当にわずかなチューニング程度では無いかと想像される。