米インテルは12月14日、” AI Everywhere“と題した新製品発表会を開催。その中でついに、第5世代インテル® Xeon® スケーラブル・プロセッサー、開発コードEmerald Rapidsが発表された。日本においても12月18日、同様に発表会が行われ、新製品の紹介と併せて、半導体市場の成長やインテルが考えるAIの民主化についてなどが語られた。

本稿では、発表された第5世代インテル® Xeon® スケーラブル・プロセッサーを紹介しつつ、今回の新製品と日本で行われた発表会から感じる、インテルの思いなどを紐解いていこうと思う。

  • 写真

    インテルの鈴木社長が第5世代インテル® Xeon® スケーラブル・プロセッサーを見せてくれた

Sapphire Rapidsからさらなる進化を遂げた“Emerald Rapids”

今回発表された第5世代インテル® Xeon® スケーラブル・プロセッサー(以下、第5世代Xeon)は、第4世代の進化版と言っていいだろう。まずは、どのような点が第5世代Xeonの進化ポイントなのか、紹介していきたい。

  • スライド画像

上記スライドは今回行われた製品発表のハイライトになっている。なかでも特徴的な点は、この性能向上をプロセスの微細化無しで実現していることだ。詳細は後述するが、実は今回発表されたXeonのCPUコア数は、第4世代から4コア増えた最大64コアにとどまっている。しかし実際にはただの性能向上だけでなく、消費電力当たりの性能も大幅に向上させており、それでありながらプラットフォームは第4世代のものを、そのまま利用可能になっているそうだ。

プロセスの微細化によって性能向上や消費電力当たりの性能改善を図るというのはよくある話だが、プロセスの変更無しに大幅な性能向上や消費電力削減、という第5世代Xeonのケースは、Xeonシリーズのみならずコンシューマー向けのプロセッサーまで見ても、非常に稀である。

第5世代インテル® Xeon® スケーラブル・プロセッサーの全貌

ここからは第5世代Xeonが、どのようにして性能向上や電力効率改善を実現したのか、紹介していく。

  • スライド画像

上記のスライドは第4世代からの変更点をまとめたものである。コア数そのものは先述した通り第4世代の最大60コアから64コアと微増でしかないが、コアあたり1.875MBだったLLCを、コアあたり5MBまで増量。その結果、従来は最大でも112.5MB(Xeon Platinum 8490H )でしかなかったLLCは、最大320MB(Xeon Platinum 8593Q)と約3倍に増えている。加えてメモリの最大転送速度においても、従来の4800MT/sから5600MT/sに引き上げられた。これらの進化により、第4世代でしばしば報告されていた、キャッシュ/メモリアクセスのボトルネックに起因する性能低下が大幅に緩和できたそうだ。

  • スライド画像

また、CPU Tileにも変更点がある。従来は4つのCPU Tileを相互接続する構造であったが、第5世代はこれを2つにし、接続も単純化した。これにより、コア同士、あるいはコアとメモリI/Fなど、周辺回路へのアクセスにおけるレイテンシーが減少、さらにTile同士の接続に必要なI/Fの面積と消費電力を削減できた。前者はL3キャッシュ容量増加の一助となり、後者は消費電力削減に貢献している。

他にも、UPIを最大20GT/sに高速化を実現、これは2 Socket以上のシステムでの性能向上に寄与している。

細部までこだわり抜いた改良

続いての変更点は、CXL 1.1のType 3、つまりMemory Expander Deviceを公式にサポートすることだ。これを利用すると、5chのPCIe Gen5 x16レーンのうち4chにCXL Memory Deviceを接続し、これをDDR5と同じようにメインメモリーとして扱う事が可能になる。

1chのPCIe Gen5 x16レーンで64GB/sの帯域となるが、これはDDR5-5600の帯域(44.8GB/s)より高速であり、仮に4chすべてにCXL Memoryを装着した状態では614.4GB/sものメモリ帯域が利用可能だ。もちろん、実際にはOSやミドルウェア、場合によってはアプリケーションの対応も必要になるため、「今すぐこの帯域が使える」というわけではないが、少なくともハードウェア側の用意は整ったといえる。

他にも細かい改良はさまざま施されている。たとえば省電力に関しては、従来の動作モードに加えて新しくOPM(Optimized Power Mode)と呼ばれる動作モードを追加サポートした。これはコアの負荷がそれほど高くない時に電圧を従来の製品より引き下げることで、より省電力化を図るというものである。実際、OPMの動作時には2 Socketシステムで110W程度消費電力を引き下げられるとのことだった。

  • スライド画像

もちろんフル稼働時には従来と変わらない消費電力になるが、これは当然の事と言える。ただし、一口にサーバーといっても、HPCなどの科学技術計算などを延々と行うような用途向けはともかく、通常のサーバーではそこまで負荷が高い状態が続くことは滅多にない。そして低負荷状態の際に消費電力を大幅に減らせれば、それだけ電気代や冷却の負荷も減少し、最終的にはTCOの削減につながるという訳だ。

性能向上でサーバー台数を半分に

  • スライド画像

さて、肝心の性能である。上記が主要なアプリケーションを実行した際の、第4世代Xeonからの性能向上率である。いずれも実際のアプリケーションを実行した際の性能であることがポイントになっており、第4世代と比較しても2割程度の性能向上が見て取れる。

  • スライド画像

さらに第3世代と比較すると、実に約2倍の性能向上を果たしている。つまり、ほぼ倍の性能であるという事は、第5世代Xeon搭載のサーバーにリプレイスする際には、同じ性能を維持しつつ、サーバーの台数を半分にまで減らせるという事になる。

データセンターでもクラウドでも、早ければ3年、遅くとも5年程度で機器の更新を行うと考えると、2021年発表の第3世代Xeonはまだ更新の時期とは言い難い。つまりターゲットとなるのは、初代(2017年発表)ないし第2世代(2019年発表)のXeonをベースとしたシステムという事になる。実は、第3世代のXeon が発表された際、その実アプリケーション性能は第2世代のXeon と比較して1.5倍程度(クラウドで1.5倍、AIで1.74倍など)の性能向上と発表されていた。ということは、この第2世代Xeonのシステムを今回の第5世代Xeonで置き換えた場合、3倍近い性能改善が期待できることになる。

さらなる高速化、効率化を見据えるアクセラレーター

この性能改善のさらなる助けになるのが、搭載されているさまざまなアクセラレーターである。前世代である第4世代Xeonから、DSA(Data Streaming Accelerator:ストリーミングデータのハンドリングの高速化)、DLB(Dynamic Load Balancer:複数コア間での負荷の動的調整)、IAA(In-Memory Analytics Accelerator:インメモリデータベースの高速化)、QAT(QuickAssist Technology:データの暗号/復号化や圧縮/伸長の高速化)という4種類のアプリケーションアクセラレーターと、AMX(Advanced Matrix Extensions:行列演算の高速化)の合計5つのアクセラレーターを搭載している。これに加えて以前から搭載されているAVX512もあり、アプリケーションがこれらに対応していくことでさらなる高速化と高効率化が実現する。

  • スライド画像

ただし、AVX512はともかく、それ以外のアクセラレーターについては、これまで特定のプロセッサーなどに搭載された事はあっても、汎用向けプロセッサーに搭載されるのは第4世代Xeonが初めてであった。特にAMXなどは第4世代Xeonで初登場という事もあり、アプリケーションの対応が遅れていたが、現在は第4世代Xeonの登場から1年近く経過していることもあり、徐々に対応アプリケーションが増えてきている。つまり今後、利用するアプリケーションが対応することで、さらに高い性能と省電力化を得られる事になる。

インテルが見ている未来 “AI everywhere”

そして今回、忘れてはならないのがAIへの対応だ。米国で行われた発表会のタイトル"AI everywhere"からもわかるように、インテルは今後ますますAIへ注力していくだろう。この新しいコンセプトについて、インテル(株)執行役員 経営戦略室 室長 大野 誠氏は日本での発表の際に、「AIがごく限られたプラットフォームや限られたユーザーに留まらず、適材適所に多くのユーザーが利用できるようにする」と説明してくれた。

これはつまり、クラウドサービスからクライアントPCまで、すべての場所においてAIへの対応が必要になるということだ。これを実現させるための方法としてインテルが提唱するのがAI コンティニュアム(AIの民主化)である。

  • AIコンティニュアム

    AIコンティニュアム

AIと一口で言ってもそのモデルの規模は昨今のLLMに代表される大規模なものから、エッジの先で使われる小規模なものまでさまざまである。今まさにマーケットが爆発的に拡大を続けている状況のなかで、既に存在するモデルをアプリケーションに組み込むだけという場合もあれば、モデルの構築から始めないといけない場合もある。こうした状況下では、一つのソリューションですべてのニーズを賄うのは不可能である。

インテルはここに向けて、インテル® Core™ Ultraプロセッサーや、今回の第5世代インテル® Xeon® スケーラブル・プロセッサーの様な汎用プロセッサー+アクセラレーター、Intel ArcやData Center GPU Maxの様なGPU、更にGaudiなどの専用プロセッサーやAgilex®を含むFPGAなど、さまざまなハードウェアを用意すると共に、これらを既存のAIフレームワークやOneAPI/OpenVINO™ ツールキットなどを用いて、広範囲に利用できるためのプラットフォームを提供している。

今回発表された、第5世代Xeonも、当然このAI コンティニュアムの一部である。もともとXeonでは第2世代からAVX512 VNNI(Vector Neural Network Instructions)と呼ばれるAI処理に向けた拡張命令が搭載されていたが、第4世代Xeonではこれをもっと強力に行えるAMXという新しいアクセラレーターが搭載された。このAMXは第5世代Xeonにも当然搭載されており、このAMXを利用する事で性能は、AMXを利用しない場合の約10倍、消費電力当たりの性能が9倍あまり向上する事も紹介された。(参照:インテル® アクセラレーター・エンジン消費電力当たりの性能向上)

そんな第5世代 Xeonであるが、第4世代Xeonと比較すると10~40%以上の高い性能の伸びを示している。

  • スライド画像

これは先に紹介したキャッシュ/メモリ帯域の向上や消費電力の削減(特にAMXをフルに使う場合、コアそのものは待機状態になる。このためコアの消費電力を削減して、その分をAMXに割り当てることでより性能を引き上げ出来る)などにより実現したものである。実際の性能としては、いわゆる生成AIを利用したさまざまなサービスを第5世代Xeon上で実行した場合、75ms未満の処理時間で実行できるという結果が示されている。

  • スライド画像

AI学習などはまた別のソリューションが必要になると思われるが、こうした推論処理に関して第5世代Xeonは現在求められる性能を十分満たしていると言えるだろう。

Emerald Rapidsのその先

発表の後、インテルの担当者は今回のEmerald Rapidsについて、インテルが本気でユーザーの事を考え開発した、と話してくれた。確かに、今回の進化はどれも性能を追い求めただけではなく、しっかりとユーザーの使いやすさや、企業にとって導入しやすい、コストの削減が可能など、そういった部分にフォーカスした進化だったように感じる。おそらく今後も、ユーザーに寄り添ったXeonを開発し、提供し続けてくれることだろう。

  • 写真

    実際の第5世代インテル® Xeon® スケーラブル・プロセッサーの写真

インテルは今後のロードマップも示している。来年前半にはSierra Forestと呼ばれる、クラウドなどのワークロードに最適化した製品を投入。その後には今回のEmerald Rapidsの後継となるGranite Rapidsも投入される予定だ。

インテルのXeonプロセッサーは長年にわたってサーバービジネスを牽引してきた主役であり、今回の発表はそのXeonの復調を印象付けるものとなった。

サーバー業界を牽引するインテルがユーザーの為に開発した“Emerald Rapids“。ぜひともリプレイスの際には検討してみてはいかがだろうか。

関連リンク

第5世代インテル® Xeon®
スケーラブル・プロセッサー・ファミリー

ユーザー視点から見たサーバーとCPU

TECH+では以前に現役サーバー担当者の読者会員を集めて座談会を実施

「サーバーにおけるCPUの役割と重要性とは――担当者座談会でみえたインテル® Xeon® スケーラブル・プロセッサーへの信頼感」
記事を読む

partner

第5世代 インテル® Xeon® スケーラブル・プロセッサー搭載サーバー製品として以下のOEM各社様からの提供を予定しております。

  • ロゴ

[PR]提供:インテル