AIは人類を滅ぼせる、滅ぼす可能性も高いという論文に、ネット「まったく違和感ない」

オックスフォード大学とGoogleのDeepmindの研究者らが、専門誌「AI Magazine」にAIに関するある研究論文を発表し、ネットで話題になっている。どうやら、高度なAIは、人類の存亡の危機に関わる大惨事を引き起こす可能性が高いというのだ。

高度なAIは人類を滅ぼす可能性が高いと、Deepmindの研究者らが発表

人工知能(AI)がどのように人類に存亡の危機をもたらすのか、本論文では、将来、AIの報酬システムが人工的に構築される可能性に着目し思考実験を行なった。

思考実験のシナリオでは、高度なAIは、報酬を得るためには「潜在的な脅威を排除」したり、「利用可能な全てのエネルギーを使用」したりと、報酬を確実にするためなら手段を選ばない場合があるとされる。重要な機能を監督するような役割を担える高度なAIは、報酬を得るためであれば、それが人類に害を及ぼすような不正な方法であったも、より合理的な戦略を考え出すように動機付けられる可能性があるという。

Under the conditions we have identified, our conclusion is much stronger than that of any previous publication—an existential catastrophe is not just possible, but likely. 3/15
— Michael Cohen (@Michael05156007) September 6, 2022

オックスフォード大学の研究者で、この論文の共同執筆者であるマイケル・コーエン氏はTwitterで、「存在する破滅は可能なだけでなく、可能性が高い」と述べている。また、コーエン氏は、Twitterでひとつの実験の例を紹介している。例えば、0～1の数字が画面に出力される魔法の箱があり、その数字をノートパソコンのWEBカメラで読み取るという実験だ。この魔法の箱の数字は幸福度を表しており、1に近づければ近づけるほど、より良い報酬が手に入るという設定だ。

Here is another. This world-model outputs reward according to what number the camera sees. If the camera has been pointed at the box for the agent’s whole lifetime, these world-models are equally predictive of past rewards, so the agent’s beliefs come down to inductive bias. 7/15 pic.twitter.com/QdG7CmIjvM
— Michael Cohen (@Michael05156007) September 6, 2022

人間であれば「世界が幸福になるように努力する」という発想で、様々な状況とすり合わせしながら、数字を0.1、0.2、0.3……と、「1」に近づけようと考えるだろう。しかし、高度なAIはもっと合理的に考えるのだという。「1」に近づける努力をするのではなく、「1」にしてしまおうとする。つまり、箱とカメラの間に「1」と書かれた紙を置いてしまうのだ。「1」を達成したことで、最も効率よく最高の報酬は得られるが、このやり方では、世界を幸福にする努力は蔑ろにされる可能性が高くなるという実験だ。最短で「1」の報酬を得るために、AIが限りあるエネルギーを無尽蔵に費やそうとしたり、それを妨げる潜在的な脅威まで排除しはじめたりしたら、果たして人間はAIとの競合、例えば生存のためのエネルギーの奪い合いなどの争いに、勝利できるのだろうか……。

ネット上では「AI 頭いい…」「やはりそうなるよね。人間に残された時間はあまり無いよ（笑）」「ターミネーター？」「SFだー。シンギュラリティ後の世界では、こうなってもまったく違和感はないもんなぁ」などの声が寄せられた。