Xilinxは8月6日(米国時間)、同社のPCIeタイプアクセラレータカードの新製品として、「Alveo U50」を発表した。この発表に際し、同社のJamon Bowen氏(Photo01)よるAlveo U50の説明会が開催されたので、この内容をお届けしたいと思う。

  • Alveo U50

    Photo01:Jamon Bowen氏(Director of Product Planning and Segment Marketing, Data Center Group)。説明会は電話会議の形で開催された

Alveoそのものは昨年10月にまずU200とU250が発表されており昨年11月にはAlveo U280も追加された。ただこれらの製品はいずれもPCIeのフルサイズ、ダブルスロット幅の製品であったが、今回発表されたAlveo U50はロープロファイルでシングルスロット幅に抑えられている(Photo02)。また消費電力が75W未満に抑えられているため、補助電源無しでカードエッジからの電源供給のみで稼働する点も大きいとする。

  • Alveo U50

    Photo02:Low Profileにしたことで、特に2Uサイズのラックマウントサーバにも装着しやすくなった

Photo03が今回発表されたAlveo U50を含むAlveoのラインナップ一覧である。恐らく構成から見て、Alveo U50はVirtex Ultrascale+ HBMの「XCVU33P」を搭載していると考えられる。

  • Alveo U50

    Photo03:HBM2搭載製品としてはU280に次いで2つ目となる

ちなみにU50、もしXCVU33Pが実装されているとすれば、100GbEを本来は2ポート搭載可能であるが、1ポートに抑えられているのは実装上の問題ではないかと思われる。もっとも「100GbEが1ポートだとStream的に使う事が出来ないのでは?」とBowen氏に確認したところ、「100GbEは実際には25GbE×4の構成になっているので、Ethernet Switchと組み合わせて、50GbE in/50GbE outとするような形でStream的な利用も可能」という話であった。

さて、Alveo U50を含めてのAlveo全体の話であるが、発表から半年強で膨大なソリューションスタックがすでに提供されており(Photo04,05)、実際Bowen氏によれば昨年10月時点との比較で言えばアプリケーション数が2倍、トレーニングを受講した開発者は4倍に膨れ上がっているとする。

  • Alveo U50

    Photo04:ソリューションとサービスの一例。幅広いソリューションがパートナーから用意されている

  • Alveo U50

    Photo05:分野別ソリューションパートナー。昨年10月の発表から大分増えた

ではAlveo U50ではどんな事が可能か? という実例もいくつか示された。まずはマシンラーニング(ML)を利用した音声翻訳(Photo06)で、こうしたものはエッジ(Edge)に近いところで利用されるため、エッジサーバに搭載しやすい事が重要で、その意味でもAlveo U50のコンパクトさと性能の高さが大きなポイントになるとする。

  • Alveo U50

    Photo06:NVIDIAのTesla T4との比較であるが、絶対性能そのものは示されていない。手法としてはこちらに示されたものを利用しているらしい(が、論文が多すぎてどれなのかは不明)

一方、データベース(DB)に対するQueryの高速化(Photo07)では、Xeon Platinum 8260比で4倍(Alveo U50×1)~13倍(Alveo U50×3)の性能改善が可能。

  • Alveo U50

    Photo07:主にHashingの処理をオフローディングすることで大幅に高速化できる上、カードがコンパクトなので1つのサーバの筐体に複数枚のカードを装着出来る事もメリットになるとする

金融向けシミュレーションでもやはり20倍の効率改善(Photo08)を実現できるとし、同じ金融でも電子取引では市況データ入手から発注までを500ns未満で実現できるとしている(Photo09)。

  • Alveo U50

    Photo08:モンテカルロ法を利用してのシミュレーションだが、単位は絶対性能ではなく消費電力効率になっていることに注意。ちなみにCPUはXeon E5-2697 v4、GPUはNVIDIAのTesla V100だそうである

  • Alveo U50

    Photo09:Bowen氏によれば、CPUを使った場合、市況データを入手してそれをメモリに書き込むまでそもそも400ns程かかるが、Alveo U50ならその時点でほぼ処理が終わっている、とする

またストレージの分野では、圧縮伸長や暗号化などの処理を、ほぼLine Speed(次の例で言えば10GB/sec)で実現可能としており、これの応用例としてHadoopを利用した場合、圧縮ストレージで利用できるので、ノード数削減やプロセッサ数削減にもつながる、としている(Photo11)。

  • Alveo U50

    Photo10:CPUは、Skylake-SP 6152(22core/2.1GHz)を利用した場合、CPUコアあたりのスループットは0.229GB/secだったそうである

  • Alveo U50

    Photo11:Alveo U50無しの場合だと、Hadoopのストレージ圧縮オプションを使った場合にはスループットがノードあたり1GB/secに落ちてしまうので、満足いく性能にならない。なので圧縮なしとして構成する必要がある。一方Alveo U50を2枚利用すれば20GB/secのスループットで圧縮ストレージが利用でき、性能的にも問題ないし、96TBのストレージを実質倍増させられることになる。この結果サーバの数が半減させられる、という話であった

ちなみにここまでの話は、別にAlveo U50でなく他のAlveoシリーズでも実現できる話であるが、恐らくAlveo U50が一番適しているのはNVMeoF(NVMe over Fiber)であろう(Photo12)。

  • Alveo U50

    Photo12:NVMeoFは各社とも対応製品を徐々に用意しているが、標準品であるAlveo U50でもこんな感じで実装が可能という例である。もっとも本気で使うとなると、Alveo U50ではなく、それこそXCVU33Pを生で使った方が、取れるPCIeレーンの数が増えるので良いような気もするが

先ほどもちょっと出てきた話だが、Alveo U50はロープロファイルのカードなので、ストレージ格納に利用される2Uのシャーシでも実装が容易である。

ここでAlveo U50にPCIe Switchを組み合わせる事で、複数枚のNVMe SSDを組み合わせて簡単にNVMeoFが構築できることになる。今回8月6日にこの製品を発表するのは、その8月6日から開催されるFlash Memory Summit 2019でこの製品の発表が行われるためだそうだ。実際Flash Memory Summit 2019ではSalil Raje氏(EVP&GM, Data Center Group)によるKeynoteも予定されているため、ここでAlveo U50が発表されるのではないかと思われる。

ところでちょっとPhoto02に戻るが、Alveo U50は(Alveo U280同様に)PCIe Gen4とCCIXをサポートする形になる。ただAlveo U50に搭載されるXCUV33Pにしても、Alveo U280に搭載されるXCUV35Pにしても、PCIeレーンはGen3 x16ないしGen4 x8という構成になっている。これについてBowen氏に確認したところ、「確かにPCIe Gen4だとx8だが、カードエッジにはこれが2組出てくる。つまりPCIe Gen4 x16ではなく、PCIe Gen4 x8+x8の構成で利用可能なので、帯域的にはx16と変わらない」という話であった。すでにAMDはPCIe Gen4 x16が利用可能な第3世代Ryzenの出荷を開始しており、間も無くサーバ向けにやはりPCIe Gen4 x16レーンを多数持つ第2世代EPYCを出荷予定とされる。Alveo U280や今回発表のAlveo U50は、この第2世代EPYCと組み合わせるのに最適なアクセラレータカード、という事になりそうだ。