パナソニック ホールディングス(パナソニックHD)は12月25日、従来のAI(人工知能)が苦手とする「種類や撮影条件によって同一カテゴリ内の見た目が多様になる」場合にも、画像認識できるAI技術を開発したと発表した。

画像認識AIの課題「見えの多様性の扱い」

画像認識AIは、画像中の物体の特徴を捉えカテゴリを分類することで物体を認識する。一方、「電車」「犬」など同じカテゴリに属しても、車種や犬種などのサブカテゴリ間で見た目が大きく異なる例も少なくない。さらに同じ物体でも、向き・天候・光の当たり具合・背景など撮影条件の違いにより見た目が異なる例も多く、この見えの多様性をどう扱うかが、課題になっているという。

そこで、従来はサブカテゴリ内の類似性や同一カテゴリに共通する特徴を見つけられるよう分類アルゴリズムを工夫することで、多様性に左右されず頑健に認識することを目指す研究が行われていた。しかし、さまざまな現場でAIの展開が進み、大量の多様な画像を扱うようになると、「共通する特徴を見つける」というアプローチでは、特に同一カテゴリ内に「見えの傾向が異なる、より細かいカテゴリ」が存在する場合(多峰性分布)、それらをうまく同じカテゴリの物体として推定できなくなり、認識精度の低下をもたらすことが知られているとのこと。

例えば、下図の「鳥」カテゴリには、「空を飛んでいる鳥」「草原の鳥」「木に留まっている鳥」「鳥の頭」のように、同じ「鳥」でも異なる傾向の画像群が存在し、それらの画像群それぞれが対象に関する豊かな情報を持っている。ここで「本質的な特徴」にフォーカスしてしまうと、せっかく画像群が持っていた多様な情報を捨て去ることになる。

  • 本手法での画像分類結果を示す図。左はAIによる画像分類結果について、異なるカテゴリを異なる色で示し二次元にマッピングした図。中央は、緑色で示す「鳥」カテゴリに対し、分類モデルの重み行列の各成分に対応する特徴量を示した図。右は、中央の図に示す青、オレンジ、黄、赤の星印からそれぞれ近い順に画像群を表示した図。上から順に、青:空に飛ぶ鳥、オレンジ:草原の鳥、黄:木の鳥、赤:鳥の頭、という異なる特徴(多峰性)を持った画像がそれぞれ近くなるような分類が出来ている。このことから、本手法は、人の感覚とあまり違和感のない、同一カテゴリにおける多峰性をうまく表現できる分類モデルが学習できているといえる

    本手法での画像分類結果を示す図。左はAIによる画像分類結果について、異なるカテゴリを異なる色で示し二次元にマッピングした図。中央は、緑色で示す「鳥」カテゴリに対し、分類モデルの重み行列の各成分に対応する特徴量を示した図。右は、中央の図に示す青、オレンジ、黄、赤の星印からそれぞれ近い順に画像群を表示した図。上から順に、青:空に飛ぶ鳥、オレンジ:草原の鳥、黄:木の鳥、赤:鳥の頭、という異なる特徴(多峰性)を持った画像がそれぞれ近くなるような分類が出来ている。このことから、本手法は、人の感覚とあまり違和感のない、同一カテゴリにおける多峰性をうまく表現できる分類モデルが学習できているといえる

「多峰性分布」を持つ画像の認識能力を向上

そこでパナソニックHDは、物体の多様な見え方に関する情報を積極的に活用することでAIが苦手とする「多峰性分布」を持つ画像の認識能力を上げるアルゴリズムを開発した。

具体的には、特徴の分布を連続的に捉えるため、従来1次元のベクトルのみが通常用いられてきた分類モデルの重みベクトルを、2次元の正規直交行列に拡張した。これにより、重み行列の各要素が画像のバリエーション(背景の色や、物体の向きなど)を表現できるようになったという。

実証実験の結果、「鳥」のような見えが非常に多様なカテゴリに含まれる画像特徴を連続的に捉えられる分類器を導入することで、同じ物体として分類すべき特徴量群の淵を特定できることを示しました。その結果、下図に示すように、「バス」「路面電車」のような見えが近く分類が難しいようなケースでも、従来法のように見た目が近い別の乗り物に惑わされることなく、同一カテゴリに属する画像を見つけ出すことに成功したという。

  • 同一カテゴリの画像を探してくる(query)タスクにおける、従来法DNC*3(左)と提案法(右)の認識結果。一行目はバス、二行目は電車、三行目は路面電車の画像を探すタスク。従来法は見た目が近い別の乗り物を見付けてきた一方、提案法は見た目のバリエーションが豊かな形で乗り物の画像を見つけ出せている

    同一カテゴリの画像を探してくる(query)タスクにおける、従来法DNC*3(左)と提案法(右)の認識結果。一行目はバス、二行目は電車、三行目は路面電車の画像を探すタスク。従来法は見た目が近い別の乗り物を見付けてきた一方、提案法は見た目のバリエーションが豊かな形で乗り物の画像を見つけ出せている

一般的な深層学習ベースの画像認識モデル(ResNet-50)に同アルゴリズムを追加した際のメモリ量増加は実用時の試算(10クラス)で0.1%程度であり、わずかなメモリ増加で認識精度と説明性の向上が期待できるとしている。