また、1つのノードだけがキャッシュにデータを持っている場合には、そのノードだけにプローブを送るという動作が可能となっており、不要なノードへの無駄なプローブトラフィックを削除している。
しかし、このような動作をするためには、自ノードのメモリのデータがどのノードのキャッシュに入っているかを管理する機構とメモリ(プローブフィルタ:Probe Filterと呼ぶ)が必要となる。このメモリとしてAMDがとった方法は、Istanbulの6MBの3次キャッシュの内の1MBをこの管理用に当てるという方法である。
プローブフィルタのエントリサイズは4バイトであり、上位のメモリアドレスを保持して一致性をチェックするTagと、使用状態を示すEM(ExclusiveかModified)、O(Owned)、S(複数のノードにShared)、S1(1ノードだけにShared)などのステートとデータを保持しているノード番号を記憶する。そして、ホームノードは、要求されたメモリアドレスに対応するプローブフィルタエントリを読み出し、Tagの一致をチェックする。そして、ヒットであればそのデータが他のノードのキャッシュに格納されていることを意味するので、ステートに応じた動作を行う。ステートがOかEMの場合はOwnerノードだけに対してプローブを送り、その他のステートではプローブは行わない。
多くのプログラムでは、大部分のメモリアクセスが自ノードのメモリを使い、他のノードのメモリを読みに行くことは少ないので、このプローブフィルタ機構は非常に効果的に働くという。
ただし、上記のようにプローブフィルタアクセスがミスして、ホームノードのメモリが読まれて要求元に送られてキャッシュに格納されると、その情報をプローブフィルタのメモリに記憶しておく必要がある。この時、プローブフィルタエントリの空きがないと、空きエントリを作るために、そのエントリがこれまで入っていた情報を使って、他のノードに格納されているキャッシュラインを無効化する必要がでる。したがって、プローブフィルタのエントリ数が少ないと、このような無効化が頻繁になり効率が低下する。Magny-Coursの場合、各チップに5MB(6MB-1MB:プローブフィルタ転用分)のL3キャッシュと合計3MBのL2キャッシュがあり、4ノードのシステムでは、全体で32MBのキャッシュが存在する。しかし、それらのキャッシュは4ノードのデータを均等に格納すると考えると、1つのホームノードのメモリからキャッシュに格納されるデータは8MBである。1MBのプローブフィルタは256Kキャッシュラインの情報を格納でき、各キャッシュラインのサイズは64Bであるので、プローブフィルタは16MB分のキャッシュを管理できる。つまり、プローブフィルタは平均的な状態では4ノードシステム全体の2倍の容量のキャッシュを管理することができ、空きが無いという状態はあまり発生しない。
しかし、全部のキャッシュが1つのノードのメモリのデータを格納してしまうという最悪の状態となると、そのホームノードは32MBのキャッシュに対して16MB分の管理テーブルしかないという状態となり、プローブフィルタの空きエントリが無いという状態が頻発する。
また、発表資料に使われた例は4ノードであるが、Magny-Cours 4ソケットの8ノードシステムでは、全体では64MBのキャッシュとなる。つまり、平均的な状態でも16MBのキャッシュに対して16MBのテーブルであり、アクセスするアドレスが完全に均等ではなく偏りがあることも考慮すると、かなりの確率でエントリの追い出しが発生すると思われる。そして、最悪状態ではプローブフィルタはキャッシュ量の1/4しかないという苦しい状態となる。これに関して、発表者のConway氏に確認したところ、6MBのL3キャッシュの内、どれだけをプローブフィルタに使うかは固定ではなく、2MBを割り当てるというような設定が可能であるとのことであった。このようにプローブフィルタを大きく取ると、大規模なシステムに対応することが出来るが、一方、L3キャッシュの容量が減ってしまい性能が低下するという問題がある。
このため、小規模なシステムではプローブフィルタを使わず、6MBをまるごとL3キャッシュとして使うという設定も可能となっている。
なお、Magny-Coursは6コアのIstanbulと同じソケットに挿すことができ、製品としては同じ電力(AMDのいうACP)であるという。これに対して、会場から、何故、2チップなのに同じ電力になるのかという質問が出た。これに対しては、「例えば」電圧、クロック周波数を0.8倍にすれば各チップの電力は半分になるという答えで、やはり6コアのIstanbulよりも低いクロック周波数になりそうである。しかし、0.8x12=9.6であり、1.0x6=6に対して同じ電力で1.6倍の性能が出るのであれば、十分に価値がある。