今回のチップで採用された新しい目玉技術は、Quick Path Interconnect (QPI)と呼ぶ高速シリアルインタフェースの搭載である。ご存知のように、これまでIntelはコモンバスのFSBを使ってきたが、チップ上にメモリコントローラを搭載し、HyperTransportでチップ間を接続するAMDにメモリバンド幅で後塵を拝してきた。これを挽回するために開発してきたのが、HypterTransportと同様な高速シリアルバスを使うQPIである。このQPIはIA-32のXeon系にも採用される予定であるが、このTukwilaが最初のQPI採用製品となる予定である。

今回発表されたTukwilaでは、信号線が20本のフルQPIを4チャネル、この半分のバンド幅のハーフQPIを2チャネル搭載している。信号伝送速度は4.8GT/sであり、フルQPIの生の伝送速度は12GB/sとなるが、10B8Bコーディングを行っていると考えられ、実際のデータバンド幅は9.6GB/sである。これが送信と受信が並行して動作できるので、QPI全体のピークバンド幅は96GB/sとなる。そして、TukwilaはAMDのOpteronと同様にメモリ直結であり、メモリコントローラをチップ上に搭載している。

しかし、類似はここまでである。OpteronはHTを通してアドレスをブロードキャストしてスヌープ方式でキャッシュコヒーレンシ制御を行っているのに対して、Tukwilaはディレクトリベースのキャッシュコヒーレンス制御を行っている。また、OpteronはDDR2/3メモリを接続するが、Tukwilaは4チャネルのFB-DIMMインタフェースを備えている。このFB-DIMMチャネルのバンド幅は合計34GB/sである。このFB-DIMMとQPIの採用により、前世代のMontvaleと比較してメモリバンド幅は6倍、プロセサ間のバンド幅は9倍となっている。しかし、高速I/Oは半導体技術が微細化してもあまり小さくならず、このI/Oインタフェース部はトランジスタ数としては、僅か26M Trであるが、123平方mmの面積を占めており、これはコア1個分に匹敵する面積である。

スヌープ方式は全プロセサのキャッシュを調べるので、プロセサ数の二乗に比例してコヒーレンスのための通信が増加する。このため、プロセサチップ数の多い、大規模なシステムを作ることは難しい。一方、ディレクトリ方式はスケーラビリティが高く大規模なシステムが作れる。また、FB-DIMMもDDRに較べると1チャネルに接続できるDIMM枚数が多い。つまり、TukwilaはOpteronより大規模なシステムを作ることを視野に入れた設計となっている。

ディレクトリベースのコヒーレンシ制御では、キャッシュラインを単位として、メモリの内容がどのプロセサのキャッシュに輸出されて格納されているかを記録したディレクトリを用いる。スヌープ方式では、要求元が全てのプロセサのキャッシュにそのアドレスのキャッシュラインを持っているかどうかを問い合わせるのに対して、ディレクトリ方式では、要求元は、そのアドレスのメモリを持つプロセサ(ホームノードと呼ぶ)に問い合わせを送る。そうすると、ホームノードはディレクトリを見て、どのプロセサが最新のデータを持っているか、どのプロセサとどのプロセサがコピーを持っているかなどを知り、それらのノードにデータの転送、メモリへの書き戻しやインバリデーション(キャッシュライン無効化)などの指令を送る。必要なノードにしか通信を送らないので、プロセサ数が増えても通信量の増加は緩やかであり、スケーラビリティが高くなる。

このような処理を行うために、Tukwilaのメモリコントローラはディレクトリベースのキャッシュコヒーレンシ制御を行うホームエージェントの機能を持っている。Itanium系プロセサのキャッシュラインサイズは256Bであるが、4GBのDIMMを付けると、最大16Mエントリのディレクトリが必要になる。これを全部プロセサチップ内に格納ことはできないので、ディレクトリの中の使用頻度の高いエントリをキャッシュするという方法がとられる。このため、Tukwilaは1.9MBのディレクトリキャッシュを搭載している。