JAISTなど、画像の深層学習における共起バイアスを取り除くシステムを開発

北陸先端科学技術大学院大学(JAIST)、東京大学(東大)、科学技術振興機構(JST)の3者は3月30日、深層ニューラルネットワーク(DNN)を用いた深層学習におけるトレーニングにおいて「共起バイアス」を取り除く、新たなヒューマンインザループシステムを開発したと共同で発表した。

同成果は、JAIST 創造社会デザイン研究領域の謝浩然講師、同・Yi He元研究補助員、中国吉林大学人工知能学院のXi Yang准教授、東大大学院情報理工学系研究科のチャン・チアミン特任講師、同・五十嵐健夫教授らの共同研究チームによるもの。詳細は、3月31日まで豪州・シドニーで開催中のAIとインタラクション技術に関する国際会議「ACM IUI 2023」にて発表された。

DNNは、画像データセットによるトレーニングを繰り返すことで、画像の特徴を「学習」することができ、たとえば船舶が写っている画像でトレーニングすると、船舶の画像を識別できるようになる。しかし、データセットが適切に設計されていないなどの理由から、AIが対象を正確に識別できないといった問題が生じることもある。

上述した例なら、船舶の画像は一般的には、船舶に加えて水面も一緒に写っていることが少なくない。そのため、DNNにおけるトレーニングの結果、船舶ではなく水面だけを認識し、水面の画像でも船舶が写っていると判断してしまうことがある。これは「共起バイアス」と呼ばれ、DNNによるトレーニングにおいて非常に多くの場面で直面する課題とされる。

AIトレーニングデータセットの共起バイアス。(上)DNNは船自体ではなく、水の波、海岸の輪郭、または船と水の境界に注目することで、「船」を分類。(下)DNNは「口紅」属性を分類する際に口の領域だけでなく、目や眉毛にも注目する(画像出典:COCOおよびCelebAデータセット)(出所:JST Webサイト)

これまでも、深層学習の共起バイアスによる影響を取り除くため、データセットの再編成や、AIが正確に特定領域を認識できるようユーザが直接指示するなどの手法があった。しかし、データセットを再編成することは非常に困難であり、またユーザが画像内に直接、注目すべき領域(ROI)を指示するには、画像内にピクセル単位で注釈を付ける作業に人手が必要になり、高いコストがかかってしまうことが大きな課題だった。そこで今回の研究では、ユーザがワンクリックで画像に注釈を付けられる、よりシンプルなアテンション誘導システムを新たに開発することにしたとする。

今回のシステムを用いることで、ユーザはワンクリックで画像内のROIを指定することが可能になり、その結果DNNによるトレーニングにかかる時間とコストを大幅に削減することができるとしている。

提案のクリックベースのAIトレーニングシステム。単一クリックの注目誘導を用いたユーザインタフェースと新たなアクティブラーニング手法を利用することで、DNNをより正確かつ効率的にトレーニングできる(出所:JST Webサイト)

さらに、従来のアテンション誘導手法では双方向の設計がされておらず、効率が悪かったという。そこで今回は、ユーザが画像をアノテーションすることにより、DNNがROIを調整する双方向システムも提案したとする。なおアノテーションとは、データセットに含まれる各データに対して、ユーザが正解となるラベルや注釈などの情報を付与することを指す。

今回のシステムでは、ユーザは、マウスのクリックで画像の識別したい部分を左クリックし、必要に応じて無視すべき部分を右クリックする。たとえば、上述の船舶の画像の例では、ユーザは船舶を左クリックし、周囲の水面を右クリックすることになる。これにより、DNNでは船舶をより正確に識別することができ、データセットの共起バイアスの影響を軽減することができるという具合だ。

AIトレーニングシステムの提案インタフェース。(左)ユーザはパラメータを修正し、アクティブラーニングに使用する手法を選択し、データセットを選択できる。(中央・右)ユーザは右側のアテンションマップの精度を上げるために左クリックして正の注目領域(画像識別したい部分の中心を指定し、右クリックして負の領域(無視すべき領域)を指定できる(出所:JST Webサイト)

加えて今回、アノテーションが必要な画像の数を減らすため、ガウス混合モデル(GMM)を使用した新たなアクティブラーニング方法も考案された。同方法は、これまでのどの方法より精度が高いことがユーザアンケートにより示され、その結果として、人間が画像内のROIをクリックして注釈を付けるシステムでは、アテンション誘導に必要な時間が27%削減されたこと、また学習の正確性を大幅に向上させることが示されたという。

提案のトレーニングシステムにより良い結果が獲得された。CelebAデータセットの「口紅」に関するデータセットでネットワークが示したアテンションマップを比較(出所:JST Webサイト)

研究チームは今回の研究成果により、実社会のアプリケーションにおけるDNNの転移性と解釈性を大幅に向上させることができるようになったとする。また、システムがより正確で明確な判断を下すことができれば、ユーザがAIに対して持つ信頼度が高まり、これらのシステムをより簡単に社会応用へと展開できるようになるとした。

研究チームは今後、DNNの信頼性を高めることに焦点を当て、AI技術の適用と開発に大きな影響を与えうる社会実装を目指すとする。そして、今回の研究成果がAI業界に大きな影響を与え、近い将来にAI技術のさらなる進展を可能にすることが期待されるとしている。

クリックベースのAIトレーニングシステムによる平均利用時間と正確性。polygon random:アクティブラーニング未使用の従来法目標対象の輪郭をなぞるインタフェース。click random:アクティブラーニング未使用のクリックベースの方法。polygon active:提案のアクティブラーニングを利用した従来法。click active:提案手法。(a)クリックベースの方法は、従来法と比較して注釈に必要な時間を大幅に短縮した。(b)提案のアクティブラーニングを利用した手法polygon active、click activeは、アテンションを集めるタスクの正確性を大幅に向上させる(出所:JST Webサイト)