もう少しMemory周りを見て見たい。グラフ7はCache & Memory Benchmarkの結果である。L1~L2キャッシュが聞いている範囲ではほぼ動作周波数に応じて性能が上がっている(この範囲では920Cと920Dの間にも有意な差は見られない)が、問題はL3やMemoryの領域だ。このグラフだと流石に潰れてしまうので、L3 Accessとなる4MBの場合、及びMemoryを全面的にAccessする64MB~1GBにおける結果の平均値を取ったのが表3である。
■表3 | ||||||
Bandwidth(GB/s) | 920C | 920D | 940 | 950 | 965 | 975 |
---|---|---|---|---|---|---|
4MB | 44.89 | 44.59 | 44.91 | 44.50 | 44.56 | 44.44 |
64MB~1GB(平均) | 11.04 | 11.32 | 11.12 | 11.33 | 11.08 | 11.36 |
見てお分かりの通り、4MBのAccessは殆ど差が無いのに対し、Memory Accessとなる64MB~1GBは11 vs 11.3GBということで、微妙に性能が持ち上がっているのが判る。
ではLatencyは?ということで、Linear AccessとRandom Accessの結果をそれぞれグラフ8と9に示す。まずLinearだが、どのケースでも概ね4MBまでは大差が無い(4MBでバラついているのは、L3のAccess Latencyは一定なのに、CPU側の動作周波数が次第にあがるから、結果としてLatencyが増えて見えるだけである)が、16/64MBの結果では明らかに差が判る。同じ動作周波数の920Cと920Dの差が一番判りやすいが、他にも940よりも950の方がLatencyが少ないとか965より975の方が少ないなど、動作周波数の増分があってもまだLatencyが減る傾向を明確に見せているのが判る。
もっともこれがRandom Accessになると逆の傾向となる。今度はD-SteppingがややLatencyが増える傾向が見えているわけで、単純にLatencyを削減したとかいう話ではないようだ。