Intelは米国時間の3月30日、モバイル向けのDiscrete GPUとしてIntel ARC Aシリーズ5製品を発表した。この内容を簡単にご紹介したい。

元々IntelはTwitterのIntelGraphicsアカウントで3月15日にこんなMentionを出しており、3月30日に何かしらが出る事はアナウンスされていたのだが、少なからぬユーザーが期待していたと思われるDesktop向けのGPUではなく、Mobile向けが先行する事になった。

さてそのMobile向けであるが、CPUと同じようにArc 3/5/7の3種類のSKUが用意されることになった(Photo01)。具体的なSKU一覧がこちら(Photo02)。まずA350MとA370Mが本日出荷開始となっており、より上位のA550M/A730M/A770Mは初夏の時期に出荷となっている。エントリにあたるA350M/A370Mであるが、ダイそのものは8つのXe-Coreを搭載(Photo03)する。A350Mはこの内2つのXe-Coreを無効化する形で出荷されると思われる。同様にA550Mは16個、A730Mは24個、A770Mは32個のコアを搭載する(Photo04)。この3製品は、後でもう一度出てくるが、恐らく同一のダイになるものと思われる(Photo05)。

  • Intel、ARC AシリーズGPUを発表 - Mobile向けDiscrete GPU、なんとAV1エンコーダ搭載

    Photo01: 後で出てくるが、Arc 3でもAlder LakeベースのGPUよりは大分高速であり、それなりにGamingを楽しめるスペックとなっている。

  • Photo02: つまり出荷は恐らく第3四半期の早い時期を現時点では予定しているものと思われる。

  • Photo03: 4つのXe-Coreで一つのRender Sliceを構成しているので、つまりA350M/A370MのダイにはこのRender Sliceが2つ搭載される形である。

  • Photo04: これはハイエンドのA770Mの構成。Render Sliceが8つになる。

そのXe-Coreであるが、一つのコアに256bit Vector Engine×16(Photo06)とMatrix Engine×16(Photo07)、それと192KBの共有L1キャッシュ兼共有メモリが搭載される形になる(Photo08)。Vector Engineの構成がこちら(Photo09)。グラフィック処理向けという話であれば、1cycleあたり16演算が可能となっており、これはかつてのIntel GraphicsのEUと全く同じピーク性能になる。つまりピーク性能だけで言えばXe-Coreというのは16EU相当になり、ローエンドのA350Mなら96EU、A370Mで128EU相当になる。A770Mが512EUという訳だ。

ちなみにMatrix EngineはXeSS(Intelの提供するAIベースのSuperSampling)に利用されるが、まず14タイトルが今年夏に対応予定という話であった(Photo10)。

  • Photo06: Vector Engineの詳細は後述。ピーク性能そのものは従来のEUと変わらないが、実効性能は引き上げられている。

  • Photo07: こちらは行列演算を行うためのもので、DP4A演算などもカバーしており、NVIDIAのTensor Core同様AI処理に利用されることになる。

  • Photo08: SLMはShared Local Memoryの略。128KBのL1+64KBのSLMといったあたりだろうか?(逆かもしれないが)。ただどちらにしても、Deferred Rendering用にはちょっと容量が足りない気が。

  • Photo09: IntとFPの2つの演算ユニットがそれぞれ8対づつあり、INTの方はEM(特殊関数)とポート共用である。ちなみに演算ユニットはMAC演算を1cycleで行えるので、16Flops/cycleという計算になる。

  • Photo10: なんというか、タイトルがちょっと微妙な感じが。

さて、この辺りまでの話は昨年のArchitecture Daysでも語られたが、ここからいくつか全く新しい話を。まずMedia Engineであるが、なんとAV1のエンコードが可能になったとされる(Photo11)。Software Encodeに比べて最大50倍高速としており、スライドには無いがデモでは同じビットレートのH.264と比較して遥かにディテールが保たれていることが示された(Photo12)。画面出力も充実しており、HDMI 2.0bとDisplayPort 1.4aに対応しており、8K60fps HDR×2とか4K120 HDR×4など、かなり高いフレームレートでの出力が可能となっている(Photo13)。また変わったところでは、ゲームモードにおいてSmooth Syncと呼ばれる仕組みが搭載された(Photo14)。例えば画面の動きが激しい場合、フレームの切り替え時には表示が大きく変化することになる(Photo15)。そこでその境目にディザリングを掛ける事で、境目を目立たなくするものだそうだ(Photo16)。

  • Photo11: AV1のDecoderは広く実装されているが、Encoderは多分業界初。

  • Photo12: まぁソフトウェアエンコードに比べればこの位高速化されるのは妥当ではある。

  • Photo13: 残念ながらHDMI 2.1への対応は現時点ではなし。

  • Photo14: Adaptive SyncやSpeed SyncはNVIDIAやAMDでも既に実装例がある。

  • Photo15: 上から1/3あたりにフレームの切り替えの境目があり、その上下で人が大きく動いているのが判る。

  • Photo16: 理屈は判るのだが、これむしろ画面が気持ち悪い事にならないのか、ちょっと心配。この辺は実物で確認してみないと何とも言えないのだが。

ところで上でも述べた様に、第一世代のIntel Arcは2種類のダイから構成される(Photo17)が、Graphics Clock(要するにBase Clock)とは別に、より高いTurbo的な動作も可能であるとされた(具体的な数字は今のところ明らかにされていない)。

  • Photo17: 多分このダイは、そのままDesktop向けにも利用されるものと思われる。ちなみにACM-G10は217億トランジスタ、ACM-G11は72億トランジスタとの事。どちらも以前公開された様に、TSMC N6での製造である。

  • Photo18: これはまぁCPUと同じである。ただHigher Clockでどの程度連続稼働が可能なのかは不明。CPUのTurbo BoostというかPL1/PL2と同様に、極めて短時間なのかもしれない。

次にDeep Link周りについて。Deep Linkは今年のCESで名前(と、HyperEncodeのデモ)だけが行われ、その後の質問でもあまり細かい話が出てこなかった機能である(Photo19)。まずPower Sharingであるが、これはGPUの負荷状態に応じて電源配分を変える仕組みである(Photo20)。どの程度の粒度で、どの程度の範囲の制御が行えるかは不明だが、先のPhoto18に出て来たBoost動作もあるいはこのPower Sharingと連動するのかもしれない(Photo21)。

HyperEncodeはMedia Engineを使ってのエンコードの際に、Discrete GPUだけでなくCPU側のIntegrate GPUに搭載されたMedia Engineを利用する事で高速化するというもので、今年のCESのデモでは最大1.4倍高速化されるとしていた(Photo22)。ちなみにこれを扱うためにはoneVPL APIへの対応が必要という事で、CESでのデモではDavinci Resolveを利用していたが、他のソフトの対応状況は不明である。最後がHyperCompute(Photo23)であるが、これも仕組みはHyperEncodeと同じで、Deep LearningのWorkloadをIntegrated GraphicsとDiscrete Graphicsで分担して実施できるというものだ。

この3つのそれぞれの効果をまとめたのがこちらである(Photo24)。単体で動作させるよりも、Integrated Graphicsを併用する事で性能が上がるという訳だ。

  • Photo19: CESでは"Dynamic Power Share、HyperEocode、Gaming、Streaming Performance"の4つが示されたのだが、Streaming Performanceはどこに消えたのだろう?

  • Photo20: 恐らくデフォルトが"Optimal"の状態で、そこからGPUの負荷に応じてHigh/Lowに切り替わる形であろう。

  • Photo21: といってもこれはNVIDIAのMaxQ、AMDのSmartShiftという形ですでに競合は実装している技術なので、後追いではあるのだが。

  • Photo22: ただこの図ではまるでフレーム別に処理している様に見えるが、実際にはI Frameから始まる一連のGOP(Group of Picture)単位で割り振る形になっていると思うのだが(確認はしていない)。

  • Photo23: 恐らくこの際のAPIはOpenVINOという事になるかと思われる。

  • Photo24: ただしSLI/CrossFire的な動作のサポートは無い。まぁ実際性能上がらないので、(ロマンには欠けるが)妥当ではあると思う。

またIntel Arcの投入に合わせ、新しいArc Controlも導入されることになった(Photo25)。

  • Photo25: これも要するにGeForce ExperienceとかRadeon Settingの後追いという事になる。

最後に気になる性能であるが、まずはローエンド向けということで、Alder Lake単体 vs Alder Lake+A370Mの結果(Photo26)を見ると、一応主要なゲームが2Kで60fps動作する。辛うじてGaming Notebookを名乗れるレベルにはなった、という感じだ。比較的軽めのゲームであれば90fpsオーバーであり、またHyper Encodeの効果でか、Transcodeは非常に高速化されているとする(Photo28)。

  • Photo26: これA350Mだとすると、同じ96EU同士なのでどこまで性能が上がるのかちょっと微妙な感じ。むしろこのA370がローエンドで良かったのでは? と思わなくもない。

  • Photo27: ただAlder Lake単体でもこのあたりは2K/60fpsはクリアしているわけで、もう少し性能の上乗せが欲しかった気も。

  • Photo28: ただ逆にTranscode性能であれば、A350Mでもそれなりに性能が上がりそうであり、このあたりも示してほしかったところだ。

とりあえずエントリレベルからIntel Arcが無事に投入されたのは喜ばしいところであるが、あとの問題は価格だろうか? 現時点で、OEMメーカーがA350M/A370Mを追加した場合に幾ら位の価格上乗せを想定しているのかの情報がない。$100位の上乗せで済むのであれば、結構お買い得感は高そうであるが。