北陸先端科学技術大学院大学(JAIST)、東京大学(東大)、科学技術振興機構(JST)の3者は3月30日、深層ニューラルネットワーク(DNN)を用いた深層学習におけるトレーニングにおいて「共起バイアス」を取り除く、新たなヒューマンインザループシステムを開発したと共同で発表した。
同成果は、JAIST 創造社会デザイン研究領域の謝浩然講師、同・Yi He元研究補助員、中国吉林大学 人工知能学院のXi Yang准教授、東大大学院 情報理工学系研究科のチャン・チアミン特任講師、同・五十嵐健夫教授らの共同研究チームによるもの。詳細は、3月31日まで豪州・シドニーで開催中のAIとインタラクション技術に関する国際会議「ACM IUI 2023」にて発表された。
DNNは、画像データセットによるトレーニングを繰り返すことで、画像の特徴を「学習」することができ、たとえば船舶が写っている画像でトレーニングすると、船舶の画像を識別できるようになる。しかし、データセットが適切に設計されていないなどの理由から、AIが対象を正確に識別できないといった問題が生じることもある。
上述した例なら、船舶の画像は一般的には、船舶に加えて水面も一緒に写っていることが少なくない。そのため、DNNにおけるトレーニングの結果、船舶ではなく水面だけを認識し、水面の画像でも船舶が写っていると判断してしまうことがある。これは「共起バイアス」と呼ばれ、DNNによるトレーニングにおいて非常に多くの場面で直面する課題とされる。
これまでも、深層学習の共起バイアスによる影響を取り除くため、データセットの再編成や、AIが正確に特定領域を認識できるようユーザが直接指示するなどの手法があった。しかし、データセットを再編成することは非常に困難であり、またユーザが画像内に直接、注目すべき領域(ROI)を指示するには、画像内にピクセル単位で注釈を付ける作業に人手が必要になり、高いコストがかかってしまうことが大きな課題だった。そこで今回の研究では、ユーザがワンクリックで画像に注釈を付けられる、よりシンプルなアテンション誘導システムを新たに開発することにしたとする。
今回のシステムを用いることで、ユーザはワンクリックで画像内のROIを指定することが可能になり、その結果DNNによるトレーニングにかかる時間とコストを大幅に削減することができるとしている。
さらに、従来のアテンション誘導手法では双方向の設計がされておらず、効率が悪かったという。そこで今回は、ユーザが画像をアノテーションすることにより、DNNがROIを調整する双方向システムも提案したとする。なおアノテーションとは、データセットに含まれる各データに対して、ユーザが正解となるラベルや注釈などの情報を付与することを指す。
今回のシステムでは、ユーザは、マウスのクリックで画像の識別したい部分を左クリックし、必要に応じて無視すべき部分を右クリックする。たとえば、上述の船舶の画像の例では、ユーザは船舶を左クリックし、周囲の水面を右クリックすることになる。これにより、DNNでは船舶をより正確に識別することができ、データセットの共起バイアスの影響を軽減することができるという具合だ。
加えて今回、アノテーションが必要な画像の数を減らすため、ガウス混合モデル(GMM)を使用した新たなアクティブラーニング方法も考案された。同方法は、これまでのどの方法より精度が高いことがユーザアンケートにより示され、その結果として、人間が画像内のROIをクリックして注釈を付けるシステムでは、アテンション誘導に必要な時間が27%削減されたこと、また学習の正確性を大幅に向上させることが示されたという。
研究チームは今回の研究成果により、実社会のアプリケーションにおけるDNNの転移性と解釈性を大幅に向上させることができるようになったとする。また、システムがより正確で明確な判断を下すことができれば、ユーザがAIに対して持つ信頼度が高まり、これらのシステムをより簡単に社会応用へと展開できるようになるとした。
研究チームは今後、DNNの信頼性を高めることに焦点を当て、AI技術の適用と開発に大きな影響を与えうる社会実装を目指すとする。そして、今回の研究成果がAI業界に大きな影響を与え、近い将来にAI技術のさらなる進展を可能にすることが期待されるとしている。