Xilinxは以前からデータセンターファーストを公言しつつも、具体的にデータセンターに入り込むための製品はサードパーティ任せとなっており、同社は単にFPGAを提供するだけであった。

実際開発キットやサーバ向け製品にPCI Expressタイプのカードはあったが、Xilinx自身がこれを出すことはなく、またソフトウェアスタックもサードパーティ任せの部分が多かった。この辺はArriaベースStratix 10ベースのPACカードをリリースしているIntelにちょっと出遅れている部分でもあったのだが、XDF 2018の基調講演の中でVictor Peng CEO自身がXilinx版PACカードともいえるアクセラレータカード「Alveo」を発表(Photo01)。

  • Alveo U250

    Photo01:Alveo U250をアピールするVictor Peng CEO(の手)

さらにこれとAMDのEPYCを組み合わせたサーバソリューションで、GoogLeNet V1にて30K Image/secの世界最高速を実現したことをアピールした(プレスリリース)。

  • AMDのMark Papermaster氏

    Photo02:この説明のためだけに登壇したMark Papermaster氏(CTO&SVP, Technology&Engineering, AMD)。ちなみに当日の朝方に会場の廊下を歩いてる氏にばったり出くわして「こんな所で何を?」「いや俺喋るんだよ」という馬鹿な会話を交わす羽目に

このAlveoについて、もう少し細かい話を聞くことが出来たのでご紹介したい(Photo03)。

  • Manish Muthal氏

    Photo03:Alveoの説明を担当されたManish Muthal氏(VP, Data Center)

まずAlveoの構成について。今回発表されたのはU200とU250の2つの製品となる(Photo04)。

  • U200/U250の概要

    Photo04:実はどちらの製品も、LUT数が大幅に合ってない。もっともこのLUTの数はユーザーが使えるもので、他にShell(アクセラレータとしての動作をさせるためのファームウェアみたいなもの)の分とかがあると思われる

どちらの製品も基板の上にはVirtex UltraScale+が1つ搭載されるほか、DDR4-2400(ECC付き) DIMMスロットが4本用意されており、最大64GBのメモリを実装できる(こちらはユーザーが増設できるようになっている模様)。Photo04にはLUTの数とSRAMの数のみ記載されているが、データシートによれば

U200 U250
LUT数 892K 1341K
レジスタ 1831K 2749K
DSPスライス 5867 11508
内蔵SRAM 35MB 54MB

となっており、ここから推定するとU200はXCVU9P、U250はXCVU13Pをそれぞれ搭載しているのではないかと想像される。

ちなみに消費電力はどちらも最大225Wとされるが、「225WはフルにLUTとDSPスライスとI/Oを使った場合の話で、例えばxDNNを実行した場合は100~110W程度だ」(Muthal氏)というのはIntelのPACと同じである。

ちなみに基調講演で示されたものは受動型冷却タイプ(Photo05,06)であるが、シロッコファンを搭載した能動型冷却タイプ(Photo07~09)も存在している。

  • Alveoのバックパネル

    Photo05:バックパネルにQSPF28×2を設けてあり、これでIn-Line Processingが可能。その脇にUSB Type-Cと思しきコネクタも見えるが、用途は不明

  • .

    Photo06:補助電源は8pin×1,AAlveoのバックパネル

  • 能動型はファン搭載

    Photo07:ファンがある分、長さがやや伸びている

  • 受動型と能動型のバックパネル構成は同じ

    Photo08:バックパネルの構成は同じく

  • 補助電源コネクタ

    Photo09:補助電源コネクタの位置が基板上方に移動。このアングルだと、基板の端からファン部が飛び出しているのが判る

ただ基調講演で示されたのは、8枚の受動型冷却タイプをシャーシに装着したものだった(Photo10)。これはU250を8枚装着しているので、理論上は32800image/secの処理性能があるはずだが、多少はオーバーヘッドがあるので、30K image/secということになるという話であった。

  • EPYC+Alveo

    Photo10:AMDの担当者に「なぜ2P EPYCなのか?」と確認したところ、このシステムを構築したベンダ(BOXX)がたまたまSuperMicroの2P M/Bを選んだからということで、別に機能的には1PのEPYCサーバでもやはり8枚のAlveoを搭載するシステムは構築可能との事

ちなみに別にU200/U250はAIの推論専用という訳ではなく(この辺りの話はまた別にしたい)、さまざまな用途で高速化が可能としており(Photo11)、実際にデモブースでは多くのベンダがAlveoに対応したアプリケーションを用意していた。

  • アクセラレートの例

    Photo11:こうした数字は条件が色々あっての話なので、何でもかんでも高速化できる、という訳ではもちろんない

そうしたエコシステムパートナーがアプリケーションを構築するためのツールとして、Xilinxももちろんツールを用意している(Photo12)。

  • Alveoアクセラレートプラットフォーム

    Photo12:ローエンドはVivadoで、その上にSDAccelが用意されるかたち。また当然ながらドライバやランタイムなども提供される。フレームワークに関してはXilinxだけというわけではないようだ

これを基に、現時点で6分野で15のアプリケーションが提供されている(Photo13)。

  • Alveoのエコシステム

    Photo13:マシンラーニングのXilinxはおそらくxDNNの事と思われる。こちらにあるように、IPとミドルウェア/ランタイムがXilinxから提供され、多くのアプリケーションがこの上ですでに動作している

またクラウドパートナーとしてAWS/Huaway/Alibabaが、オンプレミスパートナーとしてIBM/DELL EMC/HPE/富士通の名前も挙がっていた(Photo14)。

  • 主要パートナー

    Photo14:要するに主要なオンプレミスパートナーは、IntelのPACとXilinxのAlveoの両方のソリューションを提供するということとなる。パートナーとしては当然ではある

IntelのPACと異なるのは、OEMパートナーからの購入以外に同社による直売があることだろうか。U200は8995ドル、U250は1万2995ドルの価格が付いている。

まぁ結構なお値段ではあるのだが、サーバ向けとしてはさして高価とは言えない(例えばNVIDIAのTesla V100は大体1万ドルほど)。また仮にAvnetでXCVU13Pを1個だけ購入すると8万6103ドル(念のために書いておけば、もちろんこんな買い方をする方が悪い)といった具合なので、それに比べればずっとお安いというべきか。

またIntelがStratix 10 PACと一緒に発表したWorkload Storefront的なものについてどう考えているか? と尋ねたところ、「そもそも評価用のものはXilinxのページから無償で入手して利用できるので、別に今更ストア的なものは不要だと思う」(Muthal氏)という話であった。

話題の中心であるVersalは2019年以降の出荷になるため、当面はUltrascale+の製品でカバーすることになる。それもあって現行のAlveoはVirtex Ultrascale+ベースでの構成となった。将来はまた色々展開があるだろうが、とりあえずデータセンターファーストに向けてビジネスを展開するための製品がやっと揃ったのがこの発表、ということである。