ついでに、Prefixed CMPについてもう少し。RMMA 3.65までで実装されていたPrefixed CMPのテストはLCP(Length Change Prefixes)を使っている関係でやたらと性能が低い、という話は以前もした(こちらのグラフ9とか、こちらのグラフ28などだ)が、Nehalem MAではどうなっているか、を確認したのがグラフ16~19だ。
大雑把に言って、Core MAでは2.3Bytes/cycle程度。命令長は8Bytesだから、デコードのスループットは3.5cycleほどになる計算だ。これがNehalem MAでは2.5Bytes/cycleに向上しており、スループットは3.2cycleほどになっている。微妙ではあるが、Complex Decoderそのもののスループット向上も図られていると考えて良さそうだ。