RightMark Memory Analyzer 3.8その2「I-ROB」(グラフ57~60)
cpu.rightmark.org
http://cpu.rightmark.org/
デコーダ段はそんな訳で余り変化が無い事が分かったが、ではScheduler段はどうか?というのが次の疑問。ちょっとDecode段の情報も含むが、今年2月に開催されたISSCCでAMDはPiledriverとSteamrollerの内部構造の違いについて、次の様な数字を示している。
コア | Priledriver | Steamroller |
---|---|---|
BTB Size | 5K | 10K |
μOp Dispatch Queue | 32 | 40 |
Int Physical Reg File | 96 | 112 |
Int Scheduler entries | 40 | 48 |
FP Physical Reg File | 160 | 176 |
Load Queue entries | 44 | 48 |
Store Queue entries | 24 | 32 |
Probe Buffer entries | 8 | 12 |
グラフ57~60はI-ROB(Re-Order Buffer)の結果を見たもので、ここで関係してくるのはμOp Dispatch Queueのはずだが、このDispatch Queueの大きさがあまり関係無い結果になっている。
おそらくはRe-Order Buffer以外にもボトルネックが何かしらあるのではないかと思う。LatencyそのものはRichlandとよく似た傾向ながら若干増えているのは、ボトルネックとなる部分(グラフ59の数字を見る限り120エントリ程度だが、これにあたるものが見当たらないのが謎である)もRichland→Kaveriの変更の際にサイズが拡張され、この分Latencyが増えているというあたりではないかと想像される。