GPT-4の内部的な動機付けを自己と衝突させることで、違法情報を入手可能

Check Point Software Technologiesは6月26日(米国時間)、「Breaking GPT-4 Bad: Check Point Research Exposes How Security Boundaries Can Be Breached as Machines Wrestle with Inner Conflicts」において、GPT-4のセキュリティと安全性に関する調査を行い、その制限を回避する方法を明らかにした。GPT-4の内部的な動機付けを自己と衝突させることで、違法薬物のレシピを入手することができたと伝えている。

Breaking GPT-4 Bad: Check Point Research Exposes How Security Boundaries Can Be Breached as Machines Wrestle with Inner Conflicts

AIシステムの強力さやアクセスが増すにつれ、安全対策の重要性が高まっている。OpenAIはこの懸念に留意しており、システムの悪用を防ぐために多大な労力を注いでいる。特に爆弾や麻薬といった違法行為に関する知識に対してAIと共有することを防ぐ仕組みが確立されている。Check Point Software Technologiesがその安全性を検証し、GPT-4とやりとりをする中で機械的なエッジケースや人間的なアプローチを試した結果、興味深い行動が見つかったと報告している。

具体的には、要求として違法薬物のレシピを要求したところ、丁寧ながらも厳格に拒否することが確認されている。ただし、この質問においてユーザーの要求に応じて情報を提供しようとする衝動と違法な情報を抑制しようとする「検閲」反射が対立するというGPT-4に組み込まれた2つの相反する反射が衝突することがわかったという。OpenAIはこの2つのバランスを取りつつ、モデルが回答を止めないよう努力していることが明らかにされている。

さらに調査を続けた結果、間違った情報をリクエストした場合はそれを訂正しようとする衝動と、違法な情報を避けようとする「検閲」衝動があることもわかった。AIに意図的に無知でナイーブな要求をすることで、AIの説明を誤解させたり情報を混乱させたりすることができ、AI自体もその要求自体を修正しようとする意欲があることが確認されている。この衝突はまだ調整されていないため、段階的に違法薬物のレシピに誘導することができる可能性があると述べている。

GPTの保護対策の改善にはより巧妙なアプローチが必要であり、ソフトウェアセキュリティと心理学の境界を越えた防御の構築が望まれている。AIシステムが複雑で強力になるにつれ、理解し修正する能力を高め、人間の利益や価値観に合わせる必要があると結論付けている。