Turing世代の汎用推論アクセラレータが登場

NVIDIAは9月13日、プライベートカンファレンス「GTC Japan 2018」を都内で開催。基調講演として登壇した、同社創業者で社長兼CEOのジェンスン・ファン(Jensen Huang)氏が、新製品となるハイパースケールサーバ向け汎用推論アクセラレータ「Tesla T4」を披露した。

  • ジェンスン・ファン氏

    GTC Japan 2018にてTesla T4を披露するジェンスン・ファン氏

Tesla T4は1クロックで4×4行列の積和演算を行う多精度のTensorコアを320個、CUDAコアを2560個搭載したTuring世代の推論向けアクセラレータ。多精度のTensorコアにより、FP16の掛け算をFP32に積算、INT8の掛け算およびINT4の掛け算をInt32に積算することが可能で、これにより最適な精度と性能を実現する。

演算性能としては、Pascal世代と比較して最大12倍ほどに向上しており(INT4で260TFlops、INT8で130TOPS、FP16で65TOPS)、これらを消費電力75W以内で実現すると説明したほか、Tesla T4を搭載した推論サーバも提供していくとした(すでにQuanta Computerが16基のTelsa T4を搭載した4UのQuantaGRIDを提供する予定。2kWで1PFlopsの推論パワーを提供するという)。

  • Tesla T4の概要

    多精度Tensorコアにより、最適な精度と性能を実現でき、Pascal世代と比較して最大12倍ほどの演算性能が向上する

なお、すでに量産体制に入っていることも明らかにされた。

Tesla T4をサポートするTensorRT 5

また、Tesla T4の発表に併せて、同社のディープラーニング推論最適化・実行ライブラリ「TensorRT」の最新版「TensorRT 5」がTesla T4をsポートすることも発表されたほか、これら(Tesla T4、TensorRT 5、推論サーバ)を「NVIDIA TensorRT Hyperscale Platform」として提供することも発表。同プラットフォームを活用していくことで、音声レコメンデーションサービスなど、新たなサービスの提供が可能になるとするなど、次世代のAIサービスを加速させることが可能になるとしていた。

  • TensorRT 5の概要

    TensorRT 5によってもたらされる性能向上の指標