Armのメインストリーム以下向けGPUソリューションを読み解く

既報のとおり英Armは3月6日、「Mali-G52/G31」と「Mali-V52」、「Mali-D51」という4種類のIPを発表した。これについてもう少し説明したい。

まずMali-G52/G31について。Mali GPUはすでにGPU IPとしてはドミナントなポジションを確立した感がある(Photo01)。

Photo01:PowerVRが脱落した事もあり、現在はMaliしか有力なIPが無いという状況になっている。もっとも「市場で使われている」という意味ではQualcommのAdreno GPUもやはり広く利用されている

2017年度にはトータル12億デバイス分が出荷されたそうで、なかなかに驚異的な数字である。ここに向けてArmはMali-G71/72というBifrostアーキテクチャに基づく製品をすでに出荷中であるが、メインストリーム向けにもこうしたニーズが強く出て来始めているとする(Photo02)。

Photo02:ゲームは分かりやすいが、マシンラーニング(ML)やMRも次第にメインストリームで要求されるようになってきている、という話

機械学習については、さまざまなアプリケーションが次第に機械学習を取り込み始めているため、ローカルに推論エンジンがないと快適さに欠けるとする(Photo03)。あるいはMRを利用したアプリケーションが快適に動くためには、やはりそれなりの処理性能が必要になる。

Photo03:インタラクティブ観光ガイド。カメラで対象を捉えると、その情報を表示してくれる
Photo04:これはVirtual Artsのアプリケーションである。メインストリーム向けにこれを広めてゆくには、それなりの処理性能が必要ということ

こうしたメインストリーム向けに今回投入されたのがMali-G52である(Photo05)。このMali-G52は、いわば「第2世代Bifrost」に基づく製品である。主要な違いは

Exectution Engineが8wayのSIMT構成になった(第1世代は4way)
それぞれのExectution Engineは32bit幅だが、これをInt8×4というSIMD動作をさせることが可能になった(第1世代はこれは不可能だった)

の2点である。

Photo05:実は1コアでの描画能力そのものは、Mali-G71/72を超えている。ただしスケーラビリティが若干抑えられているので、トータルでの性能はメインストリーム向けということになる
Photo06:数字はいずれもMali-G51比である

まずExecution Engineについては、従来は4wayのSIMTであり、これを8wayに素直に拡張したことになる。これにより、ダイエリアは22%ほど増えたが性能は2倍になっており、エリア効率が大きく改善した、とする(Photo07)。また昨年のCOMPUTEXでは「Mali GPUではInt8のサポートは行わない」と説明していたにも関わらずあっさり追加したのは、「Premium Mobile向けの場合、高価格が許容されるからSilicon Budgetが大きいためAIについてもDedicated Acceleratorを追加するなどの対策が取れる。ところがメインストリームの場合、コストの問題からSilicon Budgetが非常に厳しいので、GPU内にアクセラレータの機能を持たせないといけない」という説明であった。こちらは純粋に各ユニットが8bit/4wayのSIMDとして動作する格好で、このためInt 8をサポートしない従来のBifrostに比べて3.6倍もの性能が得られるようになった形だ。なおこのInt8に関しては、ArmNNで利用可能という話であった。

Photo07:従来のBifrostではT0～T3までの4つのThreadしか同時に扱えなかった

話を戻すとこの構成変更により、Mali-G52は1個のExecution Engineあたりの性能は従来のBifrostベース製品よりもずっと高くなっている。おそらくはそのためだろう、コアそのものは最大4コアまでに制限されている。1つのコアで3つのExecution Engineを搭載できるので、最大構成だと

4 Core×3 Exec Engine×8 Thread/cycle＝96 Thread/cycle

が処理できる。これに対しMali-G71/G72は最大32コアまで拡張可能になっており、最大構成だと

32 Core×3 Exec Engine×4 Thread/cycle＝384 Thread/cycle

の処理が可能だ。このあたりで性能調整というか、差別化を行った形である。ただこうなると次にはMali-G7x世代にも第2世代Biflostを搭載した製品が投入されそうな気がするのだが、これについてはノーコメントという話であった。

逆に高効率向けとして投入されたのがMali-G31である。こちらはMali-G72までと同じく第1世代のBifrostアーキテクチャに基づく製品であるが、よりエリア効率を高めた形になっている(Photo08)。主要な特徴としてはOpenGL ES 3.2/Vulkanのサポートのほか、AFBC(Arm Frame Buffer Compression)をGPUコアそのものに初統合した点が挙げられている。低価格向けであっても性能改善の要求は高く、これに向けた形だ。このMali-G31のリリースで、一応Top to bottomでBifrostベースの製品が揃った形だ。

Photo08:ここでの数字はMali-G51 MP2との比較であるが、製品ポジションとしてはMali-470の後継という扱いである

次がディスプレイコントローラであるMali-D51である。こちらはMali-D71のサブセット、というかMali-DP650の後継品といった扱いであり(Photo09)、特に「Assetive Display 5」と組み合わせることでPixel単位でのTone Mappingなども可能になるとする(Photo10,11)。

Photo09:数字はいずれもMali-DP650比。メインストリーム向けSmartPhoneで4K表示を可能にする事を目的にPPA最適化が図られているとする

Photo10,11:ちょっとPhoto11はモアレがひどいが、Asserive DisplayをOff(Photo10)とOn(Photo11)にした場合の表示の例。こうした機能をメインストリームでも実現するのが目的とする

最後がビデオエンコーダ/デコーダのMali-V52である。Photo12が主要な特徴だが、面白いのはこれがMali-V61比の数字なことだ。これだけ見ると、Mali-V52の方がむしろ性能が高いということになるが、Mali-V61は最大8コア構成、対してMali-V52は最大4コア構成ということで、ピーク性能ではほぼイコールとなる。ただこれをより高効率に実装したことで、メインストリーム向けに採用可能にした、というところが改善点となる(Photo13)。

Photo12:サポートされるフォーマットなどはMali-V61とほぼ同じく。最大で4K@120fpsをメインストリーム向けでサポート可能にする、というのが目的との事
Photo13:Mali-V51を使うと4x4のVideo Wallも実現できる、としていた

ちなみに今回の4製品、特にこれといった明確なターゲットプロセスが決まっているわけではないそうだが、TSMCの16FF+やSamsung/GLOBALFOUNDRIESの14LPPといった現在のハイパフォーマンス向けや、TSMCの16FFC/12FFC、Samsungの14LPCなどの低価格向けプロセス、さらに潜在的にはEUVの7nm世代も可能ではあるとしていた。とはいえ、メインストリーム向けということを勘案すると、実際にはFinFETベースの低価格向けが一番可能性としては高いだろう。