企業におけるAI導入は進んでいるものの、現状では小規模にとどまるケースがほとんどで、会社全体での本格活用に至るケースはごくわずか。多くの企業は、既存システムとの連携、セキュリティや運用管理の対応などといった課題に直面している。こうした障壁を打破し、安心・安全なAI活用を実現するソリューションが「NVIDIA AI Enterprise」だ。

12月13日-14日に開催されたオンラインセミナー「TECH+フォーラム クラウドインフラ Day 2022 Dec.変革を支えるニューノーマルのITインフラとは」で、エヌビディア シニア ソリューション アーキテクト 久保田 隆志氏は、NVIDIA AI Enterpriseの特長やNVIDIA AIカンファレンス「GTC 2022」で発表された新機能について解説。また、「NVIDIA BlueField-2 DPU」を使用したVMwareの新技術プロジェクト「Project Monterey」についても紹介した。

  • エヌビディア合同会社 シニア ソリューション アーキテクト久保田 隆志 氏

    エヌビディア合同会社 シニア ソリューション アーキテクト久保田 隆志 氏

AI活用のパイプライン全体を加速するNVIDIAのソリューション

あらゆる業務にAIが浸透してきているなか、NVIDIAは10年以上に渡って、AI開発・展開のためのフレームワークやプラットフォームを提供してきた。450を超えるSDKとAIモデルを有し、12000社のAIスタートアップ企業、350万人の開発者に利用されている。久保田氏は「NVIDIA GPUと、クラウドインフラ上に構築されたNVIDIA AIプラットフォームは、データの準備から学習、推論まで、パイプライン全体を加速する」と紹介する。

NVIDIAは2021年、主要ベンダーが提供するITインフラ上でAI開発環境を容易に導入・運用できるソフトウェアスイートとしてNVIDIA AI Enterpriseを提供開始した。「NVIDIA-Certified Systems」という制度によって認定された各サーバーベンダーで利用できるほか、AWS、Microsoft Azure、Google Cloud PlatformといったパブリッククラウドのGPU付きインスタンスの利用も可能。このうえに、OSまたはハイパーバイザをインストールする形となる。コンテナオーケストレーションの運用を考える場合は、Kubernetes環境を構築できる。久保田氏によると、IT管理者はこれまで同様の管理性で利用できるという。 一方、AI利用者に対しては、コンテナでパッケージ化されたAI環境が提供されているのも特長だ。AI環境の構築やメンテナンスは手間と時間が掛かるが、コンテナを利用することでこれを省略できるため、IT管理者とAI利用者の双方にとって使いやすいソリューションになっているといえる。

  • NVIDIA AI プラットフォームのためのオペレーションシステム 図版

NVIDIA AI Enterpriseの最大の特長の1つが、そのサポート体制である。NVIDIAのソフトウェアの大部分は無償で提供されており、自由にダウンロードして利用できるが、コミュニティによるサポートを受けるには最新のバージョンにアップデートし続ける必要があり、エンタープライズ利用には厳しい。そこで、NVIDIA AI Enterpriseのサポートでは、指定されたブランチに対して最大3年間のサポートが付帯。問い合わせ窓口も利用可能となっている。また、NVIDIA-Certified Systemsで認定されたサーバーだけでなく、各種パブリッククラウド、VMware Cloud Foundation、VMware Tanzu、Red Hat OpenShiftなどの検証認定も行っているため、エンタープライズでも安心して利用することができる。

GTC 2022で発表されたNVIDIA AI Enterpriseの最新情報

久保田氏は、GTC 2022で発表されたNVIDIA AI Enterpriseの最新版となるVer. 2.3についても解説した。 まずは、特定のAIユースケースに対応するSDK、事前学習済みモデル、フレームワークといったアプリケーション ワークフローへの対応だ。在庫管理や交通工学のための画像解析AI「Metropolis」、リアルタイムの脅威検知を実現する「Morpheus」、チャットボットやバーチャルアシスタントの構築を支援するスピーチAI「Riva」などは従来オープンソース扱いだったが、この度NVIDIA AI Enterpriseのサポート対象となった。さらに、これらを利用したAIプロセスの合理化を支援する体制として、Deloitteとコラボレーションしていくことも発表されている(日本での提供体制は未定)。

  • GTC 2022で発表されたNVIDIA AI Enterpriseの最新情報 図版

また、Ver. 2.3から第4世代TensorコアとTransformer Engineを搭載したNVIDIA H100 GPUがサポート対象となることも発表された。久保田氏は「AIワークフローにかつてないパフォーマンス・拡張性・安全性を提供する」と説明する。H100 GPUを購入すると、NVIDIA AI Enterpriseのサブスクリプションライセンス(5年間)などが付属する形となる。

  • NVIDIA H100 と NVIDIA AI Enterprise によるプロダクション AI  図版

MLOpsの領域において、Domino、Weights & Biases、Run:aiとの連携が発表されるなど、エコシステムの拡張も進んでいる。

  • NVIDIA AI Enterprise Ecosystem 図版

久保田氏によると、NVIDIAは今後もNVIDIA AI Enterpriseに対して機能追加やサポートの拡充を行い、より使いやすいソリューションになるよう継続して改善していくという。

VMwareの新技術プロジェクト「Project Monterey」

続いて久保田氏は、VMwareの新技術プロジェクト「Project Monterey」(正式名称: VMware vSphere 8 with Distributed Services Engine)について紹介した。 Distributed Services Engineは、VMwareからのインフラとワークロード管理の簡素化、ゼロトラストモデルによるインフラセキュリティの強化、インフラのパフォーマンス向上という3つの目的をもつソリューションとして開発が進んできた。これらの目的実現のために重要なものの1つがDPU(データ・プロセッシング・ユニット)となる。NVIDIAからは、BlueField-2という製品名で提供されているものだ。

DPUは、NICを置き換える形として用い、これにより機能分離が行われる。DPUには、ESXiハイパーバイザがインストールされており、1つのサーバー上に2つのホストがあるというイメージになる。DPUに搭載されているARMチップを利用すると、ハイパーバイザ以外の機能がすべてARMコアにオフロードされる。サーバー本体のCPUなどのリソースは、純粋に仮想マシンのリソースとしてのみ利用されるようになるため、サイジングが容易になる、パフォーマンスや集約率が向上するといった効果がある。

  • Distributed Services Engine の概要 図版

機能分離によるセキュリティ強化はもちろん、久保田氏によるとコストメリットも大きいという。 「36コアのCPU前提で、約8コア分のCPUリソース削減を実現しました。これは単純計算で1000台のサーバーを780台へ削減できることになります。NICの置き換えも含めて計算すると、1サーバーあたり8200ドルのTCO削減になることが当社の調査からわかっています」(久保田氏)

Distributed Services Engineはまだフル実装ではなく、段階的に機能が追加されていくため注意が必要だ。なお、Distributed Services Engineの利用にあたっては、vSphere8 Enterprise PlusおよびMonterey-ready Serverが必要となる。Monterey-ready Serverは、各OEMベンダーより順次提供開始予定となっている。

いち早く触ってみたいという場合は、検証環境が整っている「NVIDIA LaunchPad」の利用がおすすめだ。様々なシナリオを目的に応じて選択し、体験することができる。1つのシナリオにつき、2週間の利用期間が設けられており、最大4週間まで延長が可能となっている。もちろん、無償で利用できるため、ぜひ活用を検討してみてほしい。

■関連リンク

NVIDIA LaunchPadの利用を検討される方はこちらから

[PR]提供:エヌビディア