AI/深層学習に適したサーバとして4月末に「NVIDIA Tesla V100 GPU」搭載のサーバ「HPE Apollo 6500 Gen10 System」を発表した日本ヒューレット・パッカード。今回、同製品について同社のハイブリッドIT事業統括 ハイブリッドIT製品統括本部 カテゴリーマネージャーである高橋健氏に徹底的に解説してもらった。
密度を犠牲にして、拡張性と性能を追い求めた製品
まずは、同製品の仕様についておさらいしておこう。HPE ProLiant DL380 Gen10サーバをベースに4U/1ノードのサイズとなり、最大の特徴はNVLinkに対応した「NVIDIA Tesla V100 GPU」を最大8基搭載できる点だ。これにより、1台あたり単精度演算性能が125T(テラ)Flopsを実現している。
GPUはNVIDIA Tesla V100 GPUに加え、PCIeとSMX-2に対応した「NVIDIA Tesla P100 GPU」や「NVIDIA Tesla P40 GPU」「AMD Radeon Instinct M125」に対応するほか、4月末の記者会見でサポートを予定していた32GBのV100 GPUは、すでにサポート済みだという。
CPUとGPU間の接続はNVLinkとPCIeに対応しており、接続パターンはハイエンドモデルが1種類、スタンダードモデルが2種類の計3種類を選択できる。
ハイエンドモデルはNVLink2.0を利用し、GPU間の帯域が太く、かつ密結合でつながっているという。また、スタンダードモデルは従来からのPCIeを利用し、1CPUに4つ(4:1)、または8つ(8:1)のGPUを接続することができる。
ハイエンドモデルはディープラーニングやHPCのワークロードにおいて高いパフォーマンスを発揮することを可能とし、NVIDIA Tesla P100を8基搭載した「HPE Apollo Gen9 System」と比較し、約3倍の性能向上を実現しており、学習時間を3分の1に短縮することができるという。
また、PCIeの場合、MPI(Message Passing Interface)ジョブやHPCに適する4:1と、ディープラーニングに適する8:1の接続トポロジーの切り替えが、物理的変更なしでBIOSの設定のみで可能。
CPUは最大28コア、3.0GHz、165WのIntel Xeon Scalable Processorsを採用し、メモリは2666MT/s DDR4×24枚、ストレージはSAS/SATA/SSD×16台、またはNVMe×4台を搭載でき、ファームウェア攻撃を保護する管理プロセッサ「iLO5」を備える。
ネットワークは、100Gbの広帯域ネットワークアダプタを4枚搭載し、OSはRed Hat Enterprise Linux、SUSE Enterprise Linux、Ubuntu、CentOSとなり、汎用サーバと同様の運用・管理を可能としたハイパフォーマンスなコンピューティングとなっている。
電源は2200W Platinum電源装置を最大4台、標準構成で2台装備しており、消費電力が大きいGPUに向けて冗長性を確保している。ラックは業界標準の1075mmラックのため、エンクロージャ、電源用筐体が不要。
高橋氏は「密度を犠牲にして、拡張性と性能を追い求め、AIで利用するには最適なプラットームとして開発した。近年、AIという言葉をニュースで見ない日はなく、どのようなビジネス領域においてもAIは無視できないものになっている」と話す。