米Intelは6日(米国時間)、"Broadwell-EX"(開発コード名)こと、Intel Xeon E7 v4ファミリを発表した。Xeon E7 v4(以下Broadwell-EXと表記する)は、"Haswell-EX"(Xeon E7 v3)の後継であり、技術的には、すで発表済みの"Broadwell-EP"ことXeon E5 v4ファミリとほぼ同じ特徴を持つ。
Xeon E7系は、2015年5月のE7 v3からほぼ1年ぶりの更新となる。Broadwellは、開発が遅れ、出荷のタイミングがSkylakeとかなり接近した。このためXeon E5では、v3(Haswell-EP)とv4(Broadwell-EP)の間が1年以上空いてしまったが、E7系列は、そもそもE3/E5よりもあとに更新される予定であり、結果的にBroadwell-EXの出荷タイミングは、大きな影響を受けずに済んだ。
ここでは、発表されたBroadwell-EXについて解説するが、基本的な特徴や、v3とv4の違いなどについては、先に発表されたXeon E5 v4と重複する部分があるため、その解説記事をご参照いただければと思う。ここでは、簡単にBroadwell-EXの特徴を列挙しておく。
Intel Xeon E7 v4ファミリの概要。前世代のIntel Xeon E7 v3ファミリとの違いは、マイクロアーキテクチャ、コア数とスレッド数の増加、サポートメモリの追加など。最大24コアでマルチプロセッサ構成が可能だ |
- マイクロアーキテクチャ(HaswellからBroadwellへ)
- 最大コア/スレッド数(18コア/36スレッドから24コア/48スレッドへ)
- Last Level Cache/LLC(45メガバイトから60メガバイトへ)
- メモリ(RDIMM/LRDIMMに加え3DS LRDIMMへの対応)
- DDR4 Write CRCへの対応
- Intel RDT(Resource Director Technology。キャッシュやメモリバンド幅などのソフトウェア制御)
- 仮想マシン機能強化(Posted Interrupts、Page Modification Logging)
- CoD(Cluster on the Die。後述)
最大コア数やLLCサイズ、そして最後のCoD以外は、すべてXeon E5 v4系に実装されている機能なのでここでは繰り返さない。Broadwell-EXは、Bricklandプラットフォームでの利用が想定されている。この場合、メモリバッファ(Intel Scalable Memory Buffer。接続は、SMI Gen2)に最大6つのDIMMを接続できる。Broadwell-EXは、SMIを4チャンネル持っているため、最大24個のDIMMを接続できることになる。
Broadwell-EXでは、128GBBの3DS LRDIMM(DDR4。メモリダイを縦に積み上げた方式のDRAMチップ)を利用できるため、4ソケットシステム(最大96DIMM)では、最大12TBのメモリ(128GB×96DIMM。1ソケットあたり3TB)を搭載可能だ。
Broadwell-EXは、Bricklandプラットフォームでは、メモリバッファを介して最大24DIMMを接続可能。128GBの3DS LRDIMMを使うと4ソケットシステムでは最大12TBのメモリを利用できる |
実際のSKUは、前世代と同様にBasic、Standard、Advancedの3つのクラスと「エンタープライズ/データベース」、「HPC」の2つのセグメント向けに分かれており、合わせて11SKUとなっている。
CoDを実装
2つのリングバスにCPUコアとLLCを対にして接続、リングバスにメモリコントローラーやホームエージェントなどを接続するという構造は、Haswell-EXと同じだ。
Broadwell-EX(Xeon E7-8890 v4)のブロック図。CPUコアとLLCの対は、2つのリングバスに12個づつ接続しており、その間を2つの双方向バッファが接続している。メモリコントローラー、QPIエージェントはそれぞれのリングに接続している |
違いは、リングバスに接続しているCPUコア/LLCの数。これが18コアから24コアへと増加している。Haswell-EXは、14ナノメートルプロセスでの製造だったが、Broadwell-EXは、10ナノメートルプロセスの製造である。製造プロセスが進化し、微細化した分、コアとLLCを増やしている。LLCは、合計サイズは増えているが、各コアあたりの量は、2.5メガバイトとこれもHaswell-EXと同じである。
Broadwell-EXのみの改良点には、CoD(Cluster on the Die)がある。これは、一般的にいうハードウェアパーティショニングで、1つのCPUパッケージ内にあるコアを分割して、仮想的な複数のCPUパッケージ(別の言い方をすればソケット)として運用する技術だ。
CoD自体は、Haswell-EPで導入されたが、Haswell-EXには導入されていなかった。Intelによれば、複雑な機能であり、検証なども必要なため、Haswell-EXでの導入は見送り、Broadwell-EXで導入することにしたのだという。
Broadwell-EXのCoDは、2つのリングを接続するバッファでプロセッサの内部を2つに分け、両方を独立したプロセッサとして動作させる。このため、ソフトウェア側からみると、2つの独立したプロセッサのように見える。
もともと、メモリコントローラーは、それぞれのリングに接続しているため、原則、両方のプロセッサは独立して動作できる。ただし、I/OやQPI接続に関しては、片側のリングにしかないため、分割されて動作する。もっとも、CoDを使う場合でも、電源投入直後は、1つのプロセッサであり、ファームウェア(BIOS)で、CoDを有効にした場合に、OSへ報告されるプロセッサ構成情報(Affinityテーブル)が変更される。
これにより、OS側は、1つのBroadwell-EXを3つのプロセッサと認識する。以後、これをどう扱うかは、OSやハイパーバイザー(仮想マシンモニター)側の設定となる。
Xeon E7 v4のパフォーマンス
Intelが公開した資料によると、一般的な性能指標として、Broadwell-EXは、前世代のHaswell-EXと比べて1.3倍の性能があるという。これは、4ソケットのBricklandベースのサーバーによる比較となる。
総合的な性能比較では、Broadwell-EXは、前世代のHaswell-EXの1.3倍の性能があるとする。動作クロックはHaswell-EXの2.5GHzに対し、Broadwell-EXは2.2GHzと低いが、コア数が18コアから24コアと増えた分、性能が向上している |
また、Broadwell-EXのすべてのSKUの製造が開始されているわけではないので、論理的な計算値として、クラス別/セグメント別での性能比較も資料として公開されている。Broadwell-EXでは、コア数が増えたが、クロックが下がっているため、最大でも2割程度の向上にとどまる。なお、各SKUのSPEC Intの推定値は最後のスライドのようになる。