東北大学は5月7日、ロボット用の新しい運動生成手法として、深層学習と強化学習を組み合わせた「深層強化学習」と、ヒトの動作を真似て覚えられる「模倣学習」の両者の利点を併せ持つと同時に、両者の欠点を補い合った、動物に似た仕組みを持つ「AI-CPG」(CPG:中枢パターン生成器)を開発することに成功したと発表した。
同成果は、東北大大学院 工学研究科の林部充宏教授、同・グアンダ・リ大学院生らの国際共同研究チームによるもの。詳細は、IEEEが刊行するロボット工学と自動化技術に関する学術誌「IEEE Robotics and Automation Letters」に掲載された。
強化学習は、行動結果を評価することで試行錯誤的に学習を行うことができ、未知の環境にも適応できることが利点である一方で、特にシステムの自由度が高い場合には、広大な入力空間の探索に膨大な計算コストを要することが欠点となっている。そして深層強化学習は、その強化学習と深層学習を組み合わせた手法だ。
一方の模倣学習は、ロボットに学習させる際に、ヒトが同じ運動タスクを行った際の運動計測データを模倣させる手法のことで、運動タスクや環境が変化しない場合に、その有効性が知られている。しかし、学習する際の探索範囲は基本的には狭いため、未知の環境への適応性が低いことが欠点だという。
そこで研究チームは今回、ロボットのための新たな運動生成手法として、上述の2つの学習方法の両方の利点を活かすことに加え、その欠点を補い合うこともできる手法を開発することにしたという。
今回の手法では、CPGの構造が採用された。CPGとは、ヒトを含めた多くの動物が持つ、感覚入力や上位中枢からの神経指令なしに周期的な運動パターンを生成する神経回路網のことである。ヒトにおいては、上位中枢と運動ニューロンの中間である脊髄に内在するとされ、歩行などの無意識にリズムを生み出す動作において活用されていると考えられている(歩行の場合、手を大きく振ったり大股で歩いたりと、意識して各関節を動かすこともできるが、普段は特に意識していない)。
またCPGは、感覚情報に基づく反射系ネットワークと協働していることが知られている。中枢神経系の中でも上位寄りのCPGはどういう運動パターンを生成したいのかという、より運動意図に近い役割を持つことから、この部分のニューラルネットワークの学習には模倣学習が適応された。
従来のCPGを用いる方法では、数式的に設計された振動波を生成するため、必ずしもその運動パターンはヒトの運動には似ていないことが多かったとのこと。しかし今回の研究では、CPGの表現形式を用いた上で、そのパラメータをヒトの運動に模倣するように学習する新しい計算方式が採用されたことから、運動周波数を連続的に変更可能というCPGの利点を維持しながらも、その出力はヒトの運動を模倣するように学習することに成功したという。
また、ヒトの運動が感覚情報を用いた反射ネットワークによりCPGと連動し、それにより環境適応する構造が踏襲され、CPGと運動ニューロン層の間に反射ネットワークが設けられた。そして、その部分の学習に深層強化学習を適用することで、未知の環境への適応機能が実装された。これにより、模倣した歩行と走行の運動を再現することに成功したという。さらに、それだけではなく、データがない運動周波数の運動生成を行うこと、歩行から走行まで連続的に運動を変化させること、また学習時と異なる床面の状態への環境適応性も実現できることが確認できたとした。
近年、生成系AIの発展は目覚ましく、運動生成タスクへの応用も望まれている。しかし多自由度系では、生体の自己組織的な振る舞いの生成を、AIにより実装することは容易ではないことが予想されるという。その要因の1つとして挙げられるのが、生体の身体に潜む冗長性問題。AIは基本的に、1つまたは少ない数の正解を生成する場合には向いているが、同じ種類の運動タスクの実現に必ずしも1つの正解パターンがあるわけではなく、無数の解が存在してしまうという問題があるとする。そのため、運動タスクや環境の力学条件に適応して自己組織的にまた連続的に運動生成させるのは容易ではないという。
それに対し、今回のAI-CPG法では模倣学習自体がその冗長性の低減につながっているものの、原理的に自由度は拘束していないことから、冗長性そのものを維持しながらも学習時の探索計算のスペースのみを縮小している。それにより、未知の環境への深層強化学習の探索処理の複雑さを模倣学習と同時に行うことで簡略化し、さらにCPGにより運動速度は自由に調整可能という生体が持つ特徴を反映した新しい運動生成の手法といえるため、冗長性問題の解決に向けての一歩となることが期待されるとしている。