2022年に社会を驚かせたChatGPT登場以降、全世界で“生成AI”が大きな潮流を生んでいる。そしてビジネスの領域においても、生成AIという単語を聞かない日は無いと言っていいだろう。その影響は世界中のスーパーコンピューターやサーバーにも及んでおり、汎用性に富むCPUだけを使用するのではなく、アクセラレーターを組み合わせた構成が普及し、一般的となった。

そのため、生成AIの研究やサービス提供のために、さまざまなテック企業が大量にアクセラレーター製品を調達しており、業界の競争は激化の一途をたどる。

本稿ではその中でも、先日インテルが「Intel Vision 2024」において発表したインテル® Gaudi® AIアクセラレーター(以下、Gaudi®)の第3世代、インテル® Gaudi® 3 AI アクセラレーター(以下、Gaudi® 3)について紹介したい。

  • 画像

インテルが提供するAIアクセラレーター「インテル® Gaudi® AIアクセラレーター」とは

現在インテルが、AI学習・推論向けに提供しているアクセラレーター製品がGaudi®である。AI学習・推論に向く専用アーキテクチャを備えているだけでなく、幅広い構成に対応しており、外部I/Fとして業界標準のPCI Expressやイーサネットを採用しているのも特徴だ。

そして、現在販売中のGaudi® 2は2022年に登場しており、2024年4月インテルは一段とパワーアップしたGaudi® 3を発表。先日開催されたCOMPUTEX 2024ではPat Gelsinger氏がGaudi® 3のボードをもって紹介していた。同製品は今年後半に量産提供される予定となっている。

Gaudi® 3の進化ポイントを探る

近年成長が著しいAI製品は数多く、Gaudi® 3についても現在提供中のGaudi2と比較しても大きく性能を向上させた。製造プロセスは7nmから5nmに微細化され、各種性能が強化されている。また、インテルはGaudi® アクセラレーターについて今後のロードマップについても公開しており、Gaudi® 3の次の世代として開発コード名「Falcon Shores」を発表している。

  • 画像

Gaudi® 3はAIの演算で多用される行列演算エンジンをGaudi® 2の2から8と4倍、Tensorプロセッサー・コア数は第5世代となり24から64へ2.6倍と大きく増加させている。演算能力に関してもBF16のSI処理能力で4倍、FP8のAI処理能力で2倍となった。

また、演算を効率よく実行するためには高速アクセス可能なローカルメモリが重要となる。Gaudi® 3はSRAMを48MB(6.4TB/s)から96MB(12.8TB/s)、HBMメモリが96GB(2.4TB/s)から128GB(3.6TB/s)と速度・容量の両面で向上が見られている。

  • 画像

大規模構成に欠かせないネットワークに関しても100GbEから200GbE(数はGaudi2/3ともに24本)と倍増、外部I/FもPCI Express Gen 4からGen 5となり高速化した。

  • 画像

Gaudi® 3が持つ圧倒的な拡張性

Gaudi® は一つのボードだけでなく複数のボードを、イーサネットを通じて接続したうえで動作させることが可能だ。Gaudi® 3では200GbEを24ポート用意されているおり、拡張性は格段に優れていると言えるだろう。

小規模な構成の場合は通常のスイッチを介して接続したノード構成とし、中規模ならばノード間をリーフスイッチで接続するクラスタ構成、大規模ならばクラスタ間をスパインスイッチで接続することで8192台のGaudi® 3をクラスタ構成可能とするリファレンスデザインが公開されている。

  • 画像

また、Gaudi® 3の性能に関しては、競合他社製品と比較して学習・推論とも約1.5倍、推論に関しては1.4倍の電力効率を誇っており、他社製品の入手性やコスパを考えれば、Gaudi® 3という選択肢が最適解となるだろう。

開発スイートが用意されるほか、乗り換えのツールも提供。実証事例はGitHubで公開

インテルはハードウェア会社と思われがちであるが、開発ツールにおいても、かなりの優位性を誇っている。

Gaudiの性能を最大限に引き出す、インテル® Gaudi® ソフトウェア・スイートが用意され、AIソフトウェア、AIアプリケーションとAIソフトウェアスタックをフルにサポートしている。

  • 画像

インテル® Gaudi® ソフトウェア・スイートはPyTouchなどの主要なフレームワークをサポートしているほか、Hugging Face で一般的な LLM やマルチモーダル・モデルにも対応しているため、数行のコード変更を行えば簡単に新しいモデルを、Gaudi上で動作可能とする。

  • 画像

AIソフトウェアに関しては代表的なモデルをほぼサポートしており、幅広い環境で利用可能だ

  • 画像

PCIeにも対応した製品ラインナップ

Gaudi® 3の製品ラインナップは、下記画像の通りで3種類となっている。基本となるのはOAM準拠のメザニンカードであり、同製品を8個組み合わせたベースボードも提供。さらに特徴的なのは、PCIeカードでも提供が行われることだろう。

  • 画像

OAMのHL-325Lは単独ないし大規模構成のベースとして活用できる。ある程度の規模が必要な場合はGaudi® 3を8つ搭載しているHLB-325ベースボードを使用するのが最適だ。なお、HL-325Lのカードは従来通りの空冷であるが、さらなる冷却性能を得るために液冷式対応のHL-335が2024年第4四半期から提供される予定となっている。昨今のユニット内消費電力の増加に伴い、液冷対応の商用データセンターも登場しつつあるいま、液冷モジュールが登場したのは心強い。

  • 画像

PCIeカード製品のHL-338は汎用サーバーの拡張スロットにGaudi® 3を組み合わせて提供されることで、より幅広い製品ラインナップが期待できるだろう。HL-338のみTDPが600Wとなっており、これらの製品はベンダー経由で提供される。現在ベンダーとしては下記画像の通り公表されている。

  • 画像

インテル® Tiber® デベロッパー・クラウドがAI開発をさらに加速させる

インテルはインテル® ソフトウェア開発ツールを使用して、最新のインテルの CPU、GPU、AI アクセラレーター利用し、開発、テスト、実行ができる開発環境「インテル® Tiber™ デベロッパー・クラウド」を提供している。

初期費用をなるべく抑えたいスタートアップだけでなく、製品を購入することなく動作確認やPoCのために使用することができるサービスとなっており、業界トップのAI企業であるLANDING AIやAI開発プラットフォームを提供しているroboflow、seekrもインテル® Tiber™ デベロッパー・クラウドを使用中だ。

  • 画像

激化するAI開発競争のなか、多くの企業はその開発環境の構築に悩まされているのではないだろうか。より高性能な生成AI開発には、より高性能なITインフラの整備が求められるが、コストや納期など、さまざまな観点から見てもその環境を準備するのは容易ではない。そこでインテル® Gaudi® AIアクセラレーターを活用できるインテル® Tiber™ デベロッパー・クラウドを用いることで、実際に利用可能な整った環境をすぐに使用でき、常にインテルの最新製品を用いた開発環境で生成AIの開発を高速化、さらにシームレスな移植が可能である。

インテル® Gaudi® AIアクセラレーター、およびGaudi® 3はこれからの生成AI開発において、コスパ・入手性・拡張性・性能のすべてを成立させたAIアクセラレーターの最適解のひとつであることに違いはないだろう。

  • 画像

関連リンク

[PR]提供:インテル