既報のとおり英Armは3月6日、「Mali-G52/G31」と「Mali-V52」、「Mali-D51」という4種類のIPを発表した。これについてもう少し説明したい。
まずMali-G52/G31について。Mali GPUはすでにGPU IPとしてはドミナントなポジションを確立した感がある(Photo01)。
2017年度にはトータル12億デバイス分が出荷されたそうで、なかなかに驚異的な数字である。ここに向けてArmはMali-G71/72というBifrostアーキテクチャに基づく製品をすでに出荷中であるが、メインストリーム向けにもこうしたニーズが強く出て来始めているとする(Photo02)。
機械学習については、さまざまなアプリケーションが次第に機械学習を取り込み始めているため、ローカルに推論エンジンがないと快適さに欠けるとする(Photo03)。あるいはMRを利用したアプリケーションが快適に動くためには、やはりそれなりの処理性能が必要になる。
こうしたメインストリーム向けに今回投入されたのがMali-G52である(Photo05)。このMali-G52は、いわば「第2世代Bifrost」に基づく製品である。主要な違いは
- Exectution Engineが8wayのSIMT構成になった(第1世代は4way)
- それぞれのExectution Engineは32bit幅だが、これをInt8×4というSIMD動作をさせることが可能になった(第1世代はこれは不可能だった)
の2点である。
まずExecution Engineについては、従来は4wayのSIMTであり、これを8wayに素直に拡張したことになる。これにより、ダイエリアは22%ほど増えたが性能は2倍になっており、エリア効率が大きく改善した、とする(Photo07)。また昨年のCOMPUTEXでは「Mali GPUではInt8のサポートは行わない」と説明していたにも関わらずあっさり追加したのは、「Premium Mobile向けの場合、高価格が許容されるからSilicon Budgetが大きいためAIについてもDedicated Acceleratorを追加するなどの対策が取れる。ところがメインストリームの場合、コストの問題からSilicon Budgetが非常に厳しいので、GPU内にアクセラレータの機能を持たせないといけない」という説明であった。こちらは純粋に各ユニットが8bit/4wayのSIMDとして動作する格好で、このためInt 8をサポートしない従来のBifrostに比べて3.6倍もの性能が得られるようになった形だ。なおこのInt8に関しては、ArmNNで利用可能という話であった。
話を戻すとこの構成変更により、Mali-G52は1個のExecution Engineあたりの性能は従来のBifrostベース製品よりもずっと高くなっている。おそらくはそのためだろう、コアそのものは最大4コアまでに制限されている。1つのコアで3つのExecution Engineを搭載できるので、最大構成だと
4 Core×3 Exec Engine×8 Thread/cycle=96 Thread/cycle
が処理できる。これに対しMali-G71/G72は最大32コアまで拡張可能になっており、最大構成だと
32 Core×3 Exec Engine×4 Thread/cycle=384 Thread/cycle
の処理が可能だ。このあたりで性能調整というか、差別化を行った形である。ただこうなると次にはMali-G7x世代にも第2世代Biflostを搭載した製品が投入されそうな気がするのだが、これについてはノーコメントという話であった。
逆に高効率向けとして投入されたのがMali-G31である。こちらはMali-G72までと同じく第1世代のBifrostアーキテクチャに基づく製品であるが、よりエリア効率を高めた形になっている(Photo08)。主要な特徴としてはOpenGL ES 3.2/Vulkanのサポートのほか、AFBC(Arm Frame Buffer Compression)をGPUコアそのものに初統合した点が挙げられている。低価格向けであっても性能改善の要求は高く、これに向けた形だ。このMali-G31のリリースで、一応Top to bottomでBifrostベースの製品が揃った形だ。
次がディスプレイコントローラであるMali-D51である。こちらはMali-D71のサブセット、というかMali-DP650の後継品といった扱いであり(Photo09)、特に「Assetive Display 5」と組み合わせることでPixel単位でのTone Mappingなども可能になるとする(Photo10,11)。
最後がビデオエンコーダ/デコーダのMali-V52である。Photo12が主要な特徴だが、面白いのはこれがMali-V61比の数字なことだ。これだけ見ると、Mali-V52の方がむしろ性能が高いということになるが、Mali-V61は最大8コア構成、対してMali-V52は最大4コア構成ということで、ピーク性能ではほぼイコールとなる。ただこれをより高効率に実装したことで、メインストリーム向けに採用可能にした、というところが改善点となる(Photo13)。
ちなみに今回の4製品、特にこれといった明確なターゲットプロセスが決まっているわけではないそうだが、TSMCの16FF+やSamsung/GLOBALFOUNDRIESの14LPPといった現在のハイパフォーマンス向けや、TSMCの16FFC/12FFC、Samsungの14LPCなどの低価格向けプロセス、さらに潜在的にはEUVの7nm世代も可能ではあるとしていた。とはいえ、メインストリーム向けということを勘案すると、実際にはFinFETベースの低価格向けが一番可能性としては高いだろう。