Innovation 2022で語られた最新技術

インテルが先週、Intel Tech-Talkと銘打った技術説明会を開催しました。同社の取り組みの技術的ポイントを解説する記者向け勉強会という位置づけで、これまでも何度か開催されているものです。今回は、先日行われたIntel Innovation 2022において発表された新技術(第13世代 インテル Coreプロセッサーに関しては前回の説明会で大きく取り扱っていたので省略されました)(参考記事はこちら)が中心ということで、特に興味深い内容が取り扱われたため、この記事でまとめてお届けしたいと思います。

今回の説明はGPU関連をインテル株式会社 技術本部 シニア・プラットフォーム・アーキテクチャー・エンジニア 太田仁彦氏が説明し、残りをインテル株式会社 執行役員常務 第二技術本部本部長 土岐英秋氏が説明。なお、以下で使用する資料や画像は土岐、太田氏の説明時に使われたものに加え、Innovation 2022 Keynoteのものも加えてあります。

土肥氏はまず、Intel Innovation 2022のビデオは現在もYouTubeとIntel newsroomでリプレイを見ることができると紹介。

しかし、このYouTubeの方は「自動翻訳でイケてない(土岐氏)」のに対し、Intel newsroomの方は「より洗練された日本語字幕が付く」と説明がありました(記事を書く際にチェックしたところ、すでに日本語字幕が用意されており、同時通訳よりも質が高いと思います)。Day1/Day2共にキーノートビデオは1時間以上あるので、理解を深めるのならばIntelのサイトから見るのがよいようです。

  • (以下、日本語字幕付きの画像はすべてIntel newsroomのIntel Inovation 2022動画より)。YouTubeにも動画がありますが、インテルサイトの動画は比較的質の高い字幕が付いているので理解しやすいです

Intel Innovation 2022は、現CEOのPat Gelsinger氏がIntelに戻ってきて、(かつてのIDF "Intel Developer Forum"から見ると)「復活」した開発者向けのイベントで、同社の最新のテクノロジーをいち早く紹介する象徴的な場となります。キーノートはDay1がCEOのPat Gelsinger氏、Day2はCTOのGreg Lavender氏が行っています。

インテルは従来、今後の社会に必要な「4つのSuper Power」として、コンピューティング、コネクティビティ、インフラストラクチャー、AIを挙げていました。フィードバックとして「一つ足らない」と指摘があったのが「センシング」。ユビキタスの観点データの入力を自動的に行う5つ目の要素が必要となります。

  • 従来4つだったテクノロジーのスーパーパワーはセンシングが増えて5つへ

変わるIntelの半導体製造

もちろん、入力されたデータを処理するためにはよりパワフルなコンピューティング能力が必要で、基盤となるチップの設計が重要。そこで、4年間で5つのプロセス開発(Intel 7/4/3/20A/18A)と、従来の2年に一回(最近はそれも伸び伸びになっていて、改良が加わっているものの2014年のBroadwell「第5世代」から2021年のRocket Lake「第11世代」まで14nmプロセスが使われていた)から大きく変更されました。ここでは5月に行われたIntel Visionで18Aのテストウェハも見せており、順調に開発が進んでいるとアピール。

従来は一つのパッケージに一つのシリコンチップ(インテルではチップレットと言います)が入る「モノシリックパッケージ」が基本でしたが、今後は複数のチップレットを入れる事でムーアの法則を持続する考え。現時点では100億トランジスタが、10年で1兆トランジスタと100倍にする考えです。さらにコンピュートやI/O、RF、パワートランジスターのように求められる機能に応じたプロセスのチップレットを使う事で最適化を図ります。このためにTower semicondorを買収してエンドツーエンドの提供を可能にしました。

  • ムーアの法則を実現する従来のやり方はプロセスを微細化すること。チップサイズを大きくする手もありますが露光サイズの限界があるのと不良率が上がります。複数のチップレットを使う事で不良を減らしつつ多くのトランジスタを実装可能となります

  • チップレットによって最適なプロセスを利用することができます。さらに幅広い半導体ポートフォリオを持つTower Semiconductorを買収しました

インテルのファウンダリー事業IDM 2.0は従来のIDMが行っていたウェハーやパッケージングにとどまらず、チップレットやソフトウェアもワンストップで提供し、ウェハーのファウンドリーからシステムのファウンドリーを目指します。

  • 単なるウエハーを作るファウンドリー事業から、チップレットをパッケージングして、ソフトにも対応するシステム・ファウンドリーとなるのがIDM 2.0の全体像

チップレットをパッケージにするのも内部の配線(インターコネクト)を標準化し、自社のチップのみならず、他社のチップレットを組み合わせたパッケージを出荷する考えで、このためにUCIeによるインターコネクトの標準化を行います。Innovation 2022ではTSMCとSamsungがビデオ登壇。UCIe参加企業も80社を超えていると説明がありました。

  • 他社のチップレットもパッケージに組み込みやすくするために、インターコネクトの標準化を推進

  • エンドースのビデオショートメッセージも。TSMCのDr.Kevin Zhang氏

  • Samsung ElectronicsのJinman Han氏

GPUの新勢力、Intel Arcの登場

ここで太田氏にバトンタッチして、GPU(ARC)関係の説明になりました。Intelのグラフィックス製品はながらくCPU内蔵グラフィックスのみでしたが、今年3月にIntel ARC Aシリーズを発表。エントリー製品のARC A3シリーズが日本でも販売されています(Intel 740以降なので24年ぶり)。Intel ARC Aシリーズはエントリ製品からレイトレーシングに対応しているのが特徴で、Innovation 2022では上位製品のA770/A750が発表されました。

  • Intelのキーノートらしく多数の製品を手に持って紹介。A770はわざわざケーブルをつないで光らせていました。補足しておくとIntel 740は初の外付けGPUで次のLarrabeeも発表されたものの結局製品化に至らず黒歴史化

  • ベンチマークではGeForce 3060越えのパフォーマンスが期待できそうなIntel ARC Aシリーズの上位製品 A770

  • Intel ARC A 700シリーズとしてまずA770とA750が登場。Xe-coreの数やクロック、メモリとライティングの差があります

  • 基本構成となるのがXe-core。16のベクトル演算ユニット、16のマトリクス演算ユニットがセットになっています

レイトレーシング関係は基本となる(A750が28/A770が32個の)Xe-coreごとにTRUとTSUをひとつづつ搭載しています。TRUはレイトレーシングのためのユニットとなり、同時に2つのレイが扱え、反射等で12分岐まで対応。最終的なトライアングルへの到達を各1クロックで対応。専用のBVHキャッシュも搭載します。今回開示されたTSU(Thread Sorting Unit)はレイトレーシングの効率を上げるためにTSUが効率よく仕分けて効率性を上げるものとなります。

  • レイトレーシングのためには同時に2つのレイを処理するRTUと、レイトレーシングを効率的に動かすTSUが用意

超解像度技術を使用して処理時間を減らすXeSSもあります。4K画面出力を素直にレンダリングすると時間がかかるので、1080Pや1440Pで内部レンダリングした画像をXeSSによって4Kに超解像度化して出力(対応ゲームのみ)。説明では超高解像度化されたフレームメモリの結果を再帰的にXeSSに取り込むことで最適化を図り「場合によっては4Kレンダリングよりも画質が上がる(太田氏)」との事。

  • 低解像度のレンダリングをXeSSでアップスケールして高画質化。最終フレームの結果をXeSSにフィードバックするのがキモのようです

  • 4Kレンダリングは1080Pの4倍のピクセル処理なので当然時間がかかります。内部的に1080Pや1440PでレンダリングをすることでXeSSの処理時間あってもトータル処理時間が短くなるしくみ

一方、現在のコンピューティングでGPUを使うのはパソコンだけではありません。ライバルのNVIDIAがGPU技術をベースにした製品でスーパーコンピューター分野に食い込んでいるように未来のコンピューティングにはベクトル演算とマトリックス演算を超広帯域幅のメモリーで実現、つまりGPUのようなものが多くの演算処理を行います。

まず、クラウド向けのインテル データセンター GPU Flex 140/170を紹介しました。Flex 140は高い汎用性、Flex 170はピーク性能をより重視した製品でクラウドゲーミング、メディアビデオ配信、VDI、AI推論処理データセンターのニーズを満たします。さらに超高性能なPonte VecchioもHPC向けにまずアルゴンヌ国立研究所に対するブレード出荷を開始したとの事。

  • GPUが必要なのはゲームだけではなく、スパコンやAI分野でも有効です

  • Pat氏がインテル データセンター GPU Flexを紹介

  • データセンター用のビデオ出力端子のないモデルも発表。VDI用途にも使えます

  • 超高性能なスパコン向けGPU、Ponte Vecchioも紹介。一つのパッケージに47のチップレットが入る複雑なパッケージです。初めの方で言及していたIDM 2.0もインテルが優れたパッケージング技術を持っているからこその話でしょう

Innovation 2022では開発者がいち早く最新製品を体験できるようにするDeveloper Cloudが拡張されたことを紹介していましたが、これらの製品も利用可能です。

  • 開発者向けに製品を仮想的に利用できるDeveloper Cloudも最新製品をサポートします

Intelが進める「AI」活用

GPUの説明がおわったので、再度、土肥氏にバトンタッチ。現在、画像AIの社会実装はかなり進んでいますが、そこで難しいのは推論エンジンを作る前段階のトレーニングです。

  • 従来インテルが提供していたAI関連ツールはエッジで推論を行うOpenVINO。逆に言うと学習に関してはなかったわけです

画像AIのトレーニングはまず大量の学習用データを用意して、Python等でプログラムを組みつつ学習モデルを検討し、学習させるという敷居の高さと時間が問題になります。これを解決するのがGeTiで、少ないデータ量でアルゴリズムを(半自動的に)生成できるため、アルゴリズムの検討や学習にデータサイエンティストを介さずに済むようです(市販開始はQ4)。

  • ディープラーニング学習をサポートするのが今回発表されたIntel GeTi。より少ない学習データで効率よく行え、かつPythonのような言語を知らなくても扱えるようです

Inovation 2022のGAUDI2を使ったデモではテキストから画像を生成。「スーパーヒーローの映画ポスター」とテキストで入力するとスーパーマンのような映画ポスター風画像を、「男女のスーパーヒーローをアールデコ調映画ポスター」と入力すると男女のスーパーヒーローのような画像を所要時間3.5秒ほどで16枚作製していました。

  • 学習向けのGAUDI2を使ってのデモも行われました

  • 自然言語から画像を自動生成するようです「movie poster」と入力すると3.41秒で16のサンプルを出力

  • Pat氏のリクエストで「superhero movie poster」と入力するとスーパーマン風コスチュームの画像を生成

  • さらにクールにと「superhero movie poster with female and male in the style of art deco」とかなり細かい指示を入れても認識されています

開発者ファーストを掲げるソフトウェア戦略

ソフトウェアに関しては開発者ファーストの取り組みを示しました。

  • アンケートでインテルのソフトを使っての開発、あるいはインテルが最適化したソフトを利用していると回答した結果が90%に及んだとアピール

オープンなエコシステムが多様性を生み、それによって選択の幅が広がり、結果として開発者はイノベーションに集中できます。

一例としてインテルが買収したHPCで様々なアクセラレーターを利用できるcodeplayを紹介。買収はしたものの、インテルの中に組み込むことはせず、codeplayのコミュニティの力によって他社の製品も最適化の中に組み込んでいると紹介しました。

また、ハードウェアが変わってもソフトウェアの変更をあまり行わなくてよくするためにoneAPIを提唱しており、2023年版も近々登場するといいます。

  • マルチベンダーにわたるHPCのための高速化を行うcodeplayを買収しましたが、中に取り込まずに彼らのコミュニティを使って他社の最適化も行う事で多様性を生み、選択の幅がでます

  • ハードウェアを変えてもソフトの変更を最小限にするためにoneAPIを提供。先のcodeplayの買収もoneAPIエコシステムの採用推進を強化する取り組みです

ソフトウェア戦略は一気通貫。一番下はハードウェアに直結するBIOSやファームウェアで以前から強いところ。言語やフレームワーク、ツール、ライブラリーのレイヤーも最適化や差別化で使って欲しいところで、これもoneAPIやOpenVINOがあると説明。

ソリューション、サービス、プラットフォームに関しては現在力を入れているところで進行中のプロジェクトもあると説明して、いくつかの例を紹介しました。

AIに関してはGeTi以外にいくつかの事例(ドキュメント自動化、疫病の予測、医療画像診断)の「AIリファレンスキット」を用意。

その他コンフィデンシャル・コンピューティングのワークロードに対応するProject Amber、アクセンチュアと一緒にエッジ環境でAIをより身近に利用可能にする最適化が図られた、30以上のオープンソースAIソリューション・キットを企業に提供するプログラム「Project Apollo」と導入部分でのインテルがお手伝いをするプロジェクト群が紹介されました。

  • ファームウェアやツールは一般の人は使わない、知らない領域なので、多少目立つことも行って「インテルはソフトもイケる会社」と世間にアピールしたいのかなぁ? という気もします

  • GeTi以外に、すぐに役立つAIリファレンスキットを提供。その他Project Amber、Project Apolloも紹介

量子コンピューターの実用化に向けて

最後に紹介されたのが量子コンピューターへの取り組みで、量子コンピューターが実用化去れる2030年までに耐量子暗号への対応を終える必要があること(2000年問題のY2Kに引っ掛けてY2Qと言うそうです)、インテルが開発した10000qubitスケールの300mmウエハーを見せたほか、液体ヘリウム下で動作する量子コンピューターのqubitを制御できるデバイス「Horse Ridge」も紹介していました。

  • 10000量子配列が300mmウエハーにあるという説明なので一つのチップに10000ではないような気がしますが、量子コンピューターの研究もラボで進んでいます

  • 従来かなりの電線を使って「量子コンピューター」の制御を行っていました。これを液体ヘリウム温度下で動作するシリコンチップで実現するのがHorse Ridgeです

従来の量子コンピューターは量子ビットのコントロールを行うために、ものすごく多数の電線を使用している(「量子コンピューター」で画像検索すればわかりますが、御本尊の量子デバイス容器を取り囲む大量の電線が見えます)。Horse Ridgeはもっと多くの量子ビットをより少ないワイヤーかつ、4Kという従来の半導体では考えられないような超低温環境で動くのがポイントでしょう。

また、量子ビットのコントロールをC++で記述できるコンパイラ「Quantum SDK(β)」がデモと共に紹介されました。

  • Quantum SDKの動作デモ。25個の量子ビットをシミュレートしていましたが、シミュレートゆえに結構遅めでした

気になるARCのアノ話など

最後に質疑応答があったのでいくつか聞いてみました。ジサカーが気になる「Intel ARC A750/A770のパッケージ販売は日本であるか?」と言う回答は「販売は行われると思うが現時点では未定」との事。こちらのベンチマーク記事でも確認した性能を見ると、ARC買ってもいいかな? と思えるだけに早く発売のアナウンスを聞きたいところです(加えて第13世代 インテル Coreプロセッサの「6.0Ghz動作」特別版も「可能性があるというだけで、まだ発表していない」)。

演算用途向けのインテル データセンター用GPU Flexシリーズのスライド画像を見ると140の方が大きく見えます。画像の縮尺では? という返答と共に170はピーク性能で高いスループットがあるが、同140は1つのボードに2ユニット入っているとの事でした(トータル性能までは聞けませんでした。画像もPCIeのエッジコネクタの長さで見る限り同じぐらいの縮尺に見えます)。

インテルのファブに関して「UCIeによって標準化したことで、他社製造のチップをパッケージに組み込んで出荷するのか?」という答えはYes。ただ他社からチップをどのように調達するのか等に関しては言及がありませんでした。

ウエハー単位で出荷すると製造上の機密情報となる歩留まりと性能のばらつきがインテルが知りえることになりますし、チップをインテルの組み立て工場に(不良率を増やさず安全に)輸送する手法の開発が不可欠と思われます。

「センシングに関して現在インテルが持っているものは?」と伺ったところ太田氏はRealSenseを挙げられました。以前は立体物を判断するステレオカメラのイメージでしたが、現在はRealSenseの製品群にLIDARも保有。広義で言えばMobileye(のEyeQ)も含むだろうと土肥氏は回答していました。