パナソニックホールディングス(パナソニックHD)と、米カリフォルニア大学バークレー校は、階層的な画像認識を実現するマルチモーダル基盤モデル「HIPIE(ヒピエ=Hierarchical Open-vocabulary Universal Image Segmentation)」を共同で開発したことを発表した。

大規模言語モデルの事前知識を活用することで、テキスト入力によって、任意の階層の画像認識やセグメンテーションを行える画像認識向け汎用基盤モデルで、新たな認識対象に対しても、基盤モデルを再学習することなく、テキストプロンプトにより対応可能であるほか、1つの基盤モデルで様々なタスクに対応可能であることが特徴だという。

SCMの現場でのAI利活用への適用を計画

この技術は、今後、SCMソリューションへの採用を計画しており、2024年度から、パナソニックグループでの工場や倉庫での利用を進め、その後、SCM(サプライチェーンマネジメント)ソリューション事業での活用も検討する。

パナソニックホールディングス テクノロジー本部 デジタル・AI技術センター AIソリューション部1課 主任技師の加藤祐介氏は、「SCMソリューションでは、工場や倉庫などの現場で、作業者の行動内容をよりよく理解するために、画像認識AIが必要だが、現場ごとに画像認識AIの開発、学習が必要であり、多くの人手がかかっている。現場でのAIの利活用を促進するためにもHIPIEを利用して、人手を増やさずにサービスの実装を目指す」としている。

1つのAIモデルで複数の階層的表現を理解可能に

これまでのAIでは、人全体で認識と、顔という部分での認識、さらには顔のなかにある鼻や口、目といったパーツで画像認識するには、それぞれの階層ごとに複数のAIモデルを用意する必要があった。

HIPIEでは、こうした異なる粒度の階層的な言語の関係性を学習することができ、1つのAIモデルで複数の階層的な表現を理解できるのが特徴だ。

画像からテキスト形式で、あらゆる階層の画像認識を行ったり、画像中の物体を見つけ出し、画素単位で映っているものを識別するセグメンテーションを行ったりできる。

  • HIPIEの概要

    HIPIEの概要 (資料提供:パナソニックHD、以下すべて同様)

「ノートを取っている座っている女性」とテキストで入力すると、映像のなかから該当部分をセグメンテーションしたり、人の頭や胴体、腕といった部分を認識したりできる。

「認識したいラベル名を、テキストプロンプトに変換することで、学習時には出てこないラベルについても認識できる。HIPIEを製造現場に導入し、コンベア上の部品を検知したい際には、テキストプロンプトに、『コンベア』という単語を加えることで、画像からコンベアの部分だけをセグメンテーションできる。さらに、『黄色いジャケットを着た人』と文章で入力すると、その人だけを認識することができる」という。

  • HIPIEで解決した従来の課題

    HIPIEで解決した従来の課題

従来の画像AIは、入力した画像から、エンコーダにより、画像の特徴を抽出し、特徴量をデコーダに入力。そこから、物体の位置を検知する物体検出や、画素ごとに画像を認識するセグメンテーションとして、結果を表示する。これに対して、HIPIEでは、画像入力に対応した画像AIと、テキスト入力に対応する言語AIを含めた構造としており、言語AIを活用して、任意のラベル名をテキスト形式で入力し、画像を検出できる。

  • HIPIEの適用イメージ

    HIPIEの適用イメージ

「これまでの画像認識AIでは、画像認識対象のラベルが学習時に固定されてしまうため、新規にラベルを認識する場合にはAIに新たなパラメータを追加して、再学習する必要があった。HIPIEにはGoogleの大規模言語モデルであるBERTを利用し、ウェブ上の大量の言語データを学習しており、様々なラベルの特徴を正しく識別できる状態になっている。さらに、言語AIを活用することで、学習時には出てこない未知のラベルでも再学習せずに認識できる」とした。

  • 従来のAIの構成とHIPIEの構造
  • 従来のAIの構成とHIPIEの構造
  • 従来のAIの構成とHIPIEの構造

学習してない未知のラベルでも認識可能に

HIPIEでは、画像AIと言語AIの特徴量を対応できるように学習し、2つのAIの出力結果を紐づけるようにしているという。学習時には出てこなかった未知のラベルを認識する際には、テキストプロンプトで入力すると、言語AIで特徴量に変換。その一方で、認識対象となる未知の画像については、画像AIで特徴量に変換し、言語AIの特徴量と最も似たものを計算して、マッチングし、新たな出力結果を導き出すという。

  • HIPIEは未知の対象を認識
  • HIPIEは未知の対象を認識
  • HIPIEは未知の対象を認識することができる

現場で取り扱う様々な物品や、新商品といったような未知の物品の認識対象にも、テキストプロンプトを追加するだけで認識可能になる。また、物体名ではない曖昧な対象に対してもテキストプロンプトで認識対象にすることが可能だという。

また、HIPIEでは、複数タスクへの対応も特徴の1つとなっている。

「従来の画像AIは、1つのモデルに、1つの出力結果しか返すことができないため、物体検出タスクで学習したモデルは、セグメンテーションでは利用できず、再学習する必要があった。HIPIEでは、物体検出やセグメンテーションなど、異なるタスクを出力する複数のデコーダが含まれており、複数のタスクセットを1つのモデルで学習できる」という。

物体検知やセグメンテーションといった異なるタスクのデータセットを組み合わせるため、結果として、大きな規模のデータを学習することにもつながるという。

「既存の手法と比較しても、HIPIEは、最も多くのタスクに対応が可能であり、高い認識性能を誇る」と自信をみせた。

  • HIPIEは複数のタスクに対応したデコーダを搭載

    HIPIEは複数のタスクに対応したデコーダにより、1つのモデルで複数タスクを学習することができる

HIPIEは、12月10日から米ニューオーリンズで開催されるAIおよび機械学習のトップカンファレンスである「NeurIPS 2023」で発表することになる。

  • 代表的なセグメンテーションモデルの対応タスクの比較

    HIPIEとSAM、EEM、ODICEなど代表的なセグメンテーションモデルの対応タスクの比較

2つの視点でAI戦略を推進するパナソニックグループ

パナソニックグループでは、あらゆる顧客に素早く届ける「Scalable AI」と、あらゆる顧客の信頼にこたえる「Responsible AI」の2つの観点からAI戦略を推進。さらに、幅広い事業への適用と、リアルな空間での適用を進める考えを示している。

パナソニックホールディングス テクノロジー本部 デジタル・AI技術センター AIソリューション部1課の小塚和紀課長は、「様々な事業や商品に、積極的にAIを組み込むことで、事業成長に貢献できると考えているが、幅広い事業への展開やリアル空間での活用は、AIにとっては適用しにくい条件になりやすい。現場ごと、商品ごとのデータ構築やチューニングに、手間やコストがかかり、スケールしにくいという課題がある。パナソニックグループでは、大量かつ多様なデータによって、トレーニングし、多様な用途におけるタスクに適用する基盤モデルを活用しながら、幅広い事業をカバーするデータを集め、これを少数データ学習することで、あらゆる暮らしの場面や現場に、最適なAIを導入していくことになる」と語る。

今回のHIPIEも、同社のAI戦略の1つである「Scalable AI」による展開の1つで、工場や倉庫における活用のほか、将来的には、自動運転車やロボットなどの高度な画像認識が必要な場面で、時間とコストを節約しながら高品質なAI構築に貢献できるとしている。

なお、パナソニックホールディングスは、AIの現場適応の効率化技術の開発において、米カリフォルニア大学バークレー校のBerkeley AI Research(BAIR)と連携。同研究所が推進するBAIRオープンリサーチコモンズに、パナソニックホールディングスが参画している。

さらに、2021年度から、バーチャルラボ体制を敷き、米カリフォルニア大学バークレー校やスタンフォード大学と、Panasonic R&D Center America、パナソニックホールディングス、事業会社が連携し、AIに関する最先端技術を事業に生かすための取り組みを加速させているという。

  • パナソニックホールディングス

    左がパナソニックホールディングス テクノロジー本部 デジタル・AI技術センター AIソリューション部1課 主任技師の加藤祐介氏、右がパナソニックホールディングス テクノロジー本部 デジタル・AI技術センター AIソリューション部1課の小塚和紀課長