LeapMindのエッジ向けDNNアクセラレータを読み解く - COOL Chips 23

オンライン開催となったCOOL Chips 23

2020年4月15日から17日までの3日間、IEEEが主催するコンピュータの国際学会「COOL Chips 23」が開催された。

元々は、国分寺の日立中央研究所で開催の予定であったが、新型コロナウイルスの感染リスクを減らすため、Web上によるオンライン開催となった。使ったシステムはCISCOのWebEXで、慶應義塾大学のシステムを使わせてもらっていた。

リアルの学会で、友人、知人と会って、近況などを会話するという楽しみは無いが、9時からの講演に、家でゆっくり朝食を食べて8時50分にパソコンの前に座れば参加できるというのは非常に楽ちんである。

主催者側の発表によると、COOL Chips 23の参加者は92名とのことで、例年の150名程度の参加者に比べると2/3程度の人数であった。バーチャル開催であるが、3万円(IEEE、IEICE、あるいはIPSJの会員で4月10日以前のレジストレーションの場合)という参加費は個人的には高い感じがした。もう少し安かったら参加者が増えたのではないかと思う。

低消費電力なエッジデバイスでできるディープラーニング

今回の発表の中で興味をひかれたのは、LeapMind社の基調講演である。

基調講演を行ったLeapMind社の徳永拓之CTO (出典:このレポートのすべての図は、COOL Chips 23における徳永氏の発表PDFから引用したものである)

LeapMind社は2012年に創立され、2019年までに集めた投資の総額は約46億円で、主な出資社は、Intel Capital、TOYOTAなどであるという。

LeapMindは低電力のエッジデバイスでディープラーニングを動かすデバイスを開発している。

なぜ、エッジかというと、データをクラウドに送る必要がないので、通信コストが必要なく、安い。また、ネットワーク遅延が入らないので速い。そして、データのプライバシーが保ちやすい。などのメリットがあるからであるという。

しかし、YOLO v3ニューラルネットで画像認識を行う場合、フレーム当たりの演算量は39-140GFlopに上り、60FPSの処理を行うためには2.2-8.4TFlop/秒の演算能力が必要である。また、モデルのサイズも237MBとエッジデバイスに格納するにはサイズが大きい。

開発が進むDNNアクセラレータ「Efficiera」

そのため、次にあげるような手法を使って圧縮を行う。

ディープラーニングのモデルはサイズが大きく、推論に必要な演算量も大きい。そのため、これらの手法を使って圧縮を図る

LeapMindは、非常に少ないビット数で情報を表現するQuantization(量子化)を行うDNN(Deep Neural Network)のアクセラレータ「Efficiera」を開発している。このアクセラレータは推論(Inference)専用で、学習(Learning)用に使うことは考えていない。また、エッジデバイス用で、サーバ用に使うことも想定していない。EfficieraのIPの使い方としてはASICにする場合とFPGAで実現することを想定している。

LeapMindのEfficieraアクセラレータは、エッジデバイスでの推論専用という使い方を想定している。デバイスとしてはASICでの実現とFPGAでの実現を考えている

LeapMindはTSMCの12nmプロセスを使って開発を行っており、現在の設計で27.7TOPS/Wの電力効率となっている。この値は推論アクセラレータとしては高い値である。そして、この数値は製品版ではもっと改善する予定である。

Efficieraアクセラレータの電力効率(設計値)は27.7TOPS/Wと高い値になっている

何故、Efficieraは効率が高いのかというと、それはニューラルネットの計算を非常に少ないビット数で行っているからである。

畳み込みニューラルネットでは、入力画像にフィルタを掛ける畳み込み演算を行って抽出する情報を取り出して行く。この操作は入力(Activationと呼ぶ)に重み(Weightと呼ぶ)を掛ける。これをニューロンのすべての入力について計算し、その合計を求めて、ReLU(Rectified Linear Unit)などの非線形の関数を通してニューロンの出力を作る。

ここで主要な計算はActivationとWeightの積を計算して、次々と加算をしていくところである。

この操作は、おおよそActivationとWeightのビット数に比例する。つまり、ActivationやWeightのビット数を小さくすると計算量は減り、回路に必要なトランジスタ数が減り、消費電力も減る。

このニューロンの計算は、初期には32bitの浮動小数点数で行われていたが、画像認識の場合などでは、精度を下げて計算しても、あまり、認識率が低下しないことが分かってきて、最近では16ビットの浮動小数点数や8ビット整数を使うのが一般的になってきている。

Efficieraでは、もっとビット数を切り詰めて、Weightは1ビット、Activationは2ビットとしている。これがEfficieraの高い電力効率を実現させていると考えられる。

LeapMindのこれまでの経験では、Weightは1ビット、Activationは2ビットが計算精度と必要な計算リソースのバランスが良い

Activationは入力画像のピクセルとして外部から入力されるが、WeightはEfficieraチップの中に記憶しておく必要がある。Weightが1ビットであると、Weightを記憶するメモリが1ビットで済み、FP32の場合の1/32のメモリで済む。また、WeightとActivationの掛け算は1bitと2bitの掛け算で、掛け算回路といった複雑な回路は必要なく、簡単なビット操作で実現できる。

w1a2であるので、重みメモリはFP32の場合の1/32で済む。また、1bitと2bitの掛け算は簡単な論理回路で実現できる

しかし、もともと32bitの浮動小数点数を1ビットとか2ビットに切りつめると計算の誤差が多くなってしまい、認識率が低下して本当に推論ができるのかが問題である。

なお、ここではビット数を切り詰めて諧調のステップを荒くすることを「Quantization(量子化)」と呼んでいる。

LeapMindのエッジ向けDNNアクセラレータを読み解く - COOL Chips 23

目次

オンライン開催となったCOOL Chips 23

低消費電力なエッジデバイスでできるディープラーニング

開発が進むDNNアクセラレータ「Efficiera」

AIが勧める、あなたのための会員限定記事

Microsoft 365 Officeのアクティベート、ランダムに無効になる不具合

軍事とIT 第589回システムの統合化(23)米海軍に見る複合戦指揮官コンセプトと指揮統制システム

三井住友信託銀、システム内製化に向け三井住友トラスト S&S統合

サイフューズとSCREEN、細胞製品の品質評価を効率化する新技術を開発

筑波大と三井不動産、次世代サイエンスパーク実現に向け産学連携協定を締結

Samsungが半導体事業の本拠地を平澤に移転か？　韓国メディア報道

編集部が選ぶ関連記事

どうなる? 未来のテクノロジー第1回 Intelからの卒業と感じていた課題感

エッジ市場向けディープラーニング専用プロセッサの開発に挑むLeapMind

2020年4月開催の「COOL Chips 23」はWeb上でのオンライン開催に

LeapMind、「DeLTA-Lite」ユーザー向けサポートパッケージを提供

関連リンク

JAIST、「並行量子通信プロトコル」の完全な自動形式検証を実現

ニデックのAIサーバ向けオープン水冷式CDU、累計出荷台数5000台を突破

AI活用の鍵を握る電力性能比の向上に注力するAMD - AMD Advancing AI ＆ HPC 2024 Japan

産総研など、シリコン型量子ビットの特性が長周期で変化する原因を特定

気象庁が新たにスパコンを調達、新システムを運用開始――激甚化する自然災害から国民の生命・財産を守るために、インテル® Xeon® CPU マックスシリーズを採用

富士フイルムなど、材料開発の期間短縮が見込める量子コンピュータ向けワークフロー

このカテゴリーについて

LeapMindのエッジ向けDNNアクセラレータを読み解く - COOL Chips 23

目次

オンライン開催となったCOOL Chips 23

低消費電力なエッジデバイスでできるディープラーニング

開発が進むDNNアクセラレータ「Efficiera」

AIが勧める、あなたのための会員限定記事

Microsoft 365 Officeのアクティベート、ランダムに無効になる不具合

軍事とIT 第589回 システムの統合化(23)米海軍に見る複合戦指揮官コンセプトと指揮統制システム

三井住友信託銀、システム内製化に向け三井住友トラスト S&S統合

サイフューズとSCREEN、細胞製品の品質評価を効率化する新技術を開発

筑波大と三井不動産、次世代サイエンスパーク実現に向け産学連携協定を締結

Samsungが半導体事業の本拠地を平澤に移転か？ 韓国メディア報道

編集部が選ぶ関連記事

どうなる? 未来のテクノロジー 第1回 Intelからの卒業と感じていた課題感

エッジ市場向けディープラーニング専用プロセッサの開発に挑むLeapMind

2020年4月開催の「COOL Chips 23」はWeb上でのオンライン開催に

LeapMind、「DeLTA-Lite」ユーザー向けサポートパッケージを提供

関連リンク

JAIST、「並行量子通信プロトコル」の完全な自動形式検証を実現

ニデックのAIサーバ向けオープン水冷式CDU、累計出荷台数5000台を突破

AI活用の鍵を握る電力性能比の向上に注力するAMD - AMD Advancing AI ＆ HPC 2024 Japan

産総研など、シリコン型量子ビットの特性が長周期で変化する原因を特定

気象庁が新たにスパコンを調達、新システムを運用開始――激甚化する自然災害から国民の生命・財産を守るために、インテル® Xeon® CPU マックス シリーズを採用

富士フイルムなど、材料開発の期間短縮が見込める量子コンピュータ向けワークフロー

このカテゴリーについて

軍事とIT 第589回システムの統合化(23)米海軍に見る複合戦指揮官コンセプトと指揮統制システム

Samsungが半導体事業の本拠地を平澤に移転か？　韓国メディア報道

どうなる? 未来のテクノロジー第1回 Intelからの卒業と感じていた課題感

気象庁が新たにスパコンを調達、新システムを運用開始――激甚化する自然災害から国民の生命・財産を守るために、インテル® Xeon® CPU マックスシリーズを採用