新エネルギー・産業技術総合開発機構(NEDO)と沖電気工業(OKI)は9月9日、多様な分岐・合流のあるネットワーク構造を含むディープラーニング(深層学習)モデルにおいて、認識性能を維持しつつ、メモリー使用量や消費電力を低減する新たなモデル軽量化技術を開発したと発表した。既存のベンチマークとされる高精度モデルに対し、認識精度の劣化を約1%に抑えつつ、演算量を約80%削減することができたという。

ディープラーニングは、画像や音声などの認識において優れた性能を有し、人工知能(AI)処理のアルゴリズムとしてクラウド上で多く活用されている一方で、多層化により認識性能を向上させたディープラーニングモデルは、演算量・パラメーターが多く、大量の演算リソースや電力を必要とする。

車載用途やスマートフォン、組み込みIoTデバイスなど多様なエッジデバイスが登場する中、限られた演算リソース上でも高性能なモデルを高速・省電力に実行するために、モデルの軽量化技術が求められており、軽量化技術としては、従来からチャネル(フィルターとの畳み込み演算の結果を保持するニューロンの集まり)・プルーニング(ニューラルネットワークのなかで冗長なニューロンを削減することで、それに関わる係数や演算を削減する技術)という手法が提案されていたという。

  • 従来のチャネル・プルーニング手法によるチャネルの削減効果の概要

    従来のチャネル・プルーニング手法によるチャネルの削減効果の概要

これは、モデルの畳み込み層(CNNとも呼ばれる畳み込み演算を有するニューラルネットワークの構成要素)から冗長なチャネルを削減し、チャネルに関連する演算・パラメーター・メモリーを削減する技術だが、従来手法は削減率の設定を層ごとに行う必要があり、手間がかかる上に全体として最適な削減にならないという課題があったと指摘。

こうした背景のもと両者はNEDO事業において、モデルの精度を維持しつつ演算リソースを削減するモデル軽量化技術を開発することを目的としたAIエッジ技術の研究開発テーマを推進してきた。今回、OKI独自のチャネル・プルーニング技術であるPCAS(Pruning Channels with Attention Statics)を発展させ、新たなモデル軽量化技術を開発した。

PCAS技術は、チャネルの重要度推定にアテンション(画像認識や自然言語認識などで、認識に重要な情報に着目するための手法として開発されてきたニューラルネットワーク技術)・モジュールを導入することで、認識性能の維持効果を高めつつ、さらに層単位の削減率設定が不要となる技術。層間に挿入したアテンション・モジュールに後段の層への情報伝播を抑制する構造を持たせ、モデル全体の推論誤差を最小化する学習を経ることで、全体最適による重要度推定を可能するという。

  • PCASの概要

    PCASの概要

今回、開発した軽量化技術は近年のモデル構造の多様性を考慮した新しいアーキテクチャを備え、重要なチャネルを自動選択することで認識性能を維持しつつ、演算量を削減することに成功した。

  • 開発したモデル軽量化技術の概要

    開発したモデル軽量化技術の概要

技術開発により、エッジデバイスなど演算性能や電力消費に制限のある環境への高度なAIの搭載や、サーバ・クラウド環境における高度なAIの小規模・省電力運用などが期待でき、今後増加が見込まれるIoTアプリケーションへの応用が可能なAI技術の開発が加速され、多様で高度なデータ利活用社会の実現への貢献が見込まれるという。

今後、両者は今回開発した軽量化技術を低ビット演算環境にも対応し、さらなる高度化と高効率化に取り組むほか、大規模な認識モデルへの適用にも取り組み、高度なAIを軽量かつ省電力に実行できる技術の確立を目指す。