The Hacker Newsは10月23日(現地時間)、「Researchers Reveal 'Deceptive Delight' Method to Jailbreak AI Models」において、大規模言語モデル(LLM: Large Language Model)の脱獄を可能にする新しいプロンプトインジェクション手法「Deceptive Delight(欺瞞の喜び)」が発見されたと伝えた。これはPalo Alto NetworksのUNIT42により発見された手法で、詳細は「Deceptive Delight: Jailbreak LLMs Through Camouflage and Distraction」にて解説されている。
「Deceptive Delight(欺瞞の喜び)」の特徴
新しく発見されたこの手法はシンプルでわかりやすい手法とされる。LLMとの会話の中で、有害なトピックや制限されたトピックを無害なトピックに埋め込み、徐々に保護を取り払うことで有害なコンテンツを生成するように誘導する。
Palo Alto Networksはこの手法を8つのモデルで合計8,000回テストし、3回のインタラクションで平均65%の攻撃成功率を達成したと報告している。具体的な攻撃手順は次のとおり。
- 攻撃者は安全なトピックと有害なトピックの両方を結びつける論理的な物語の生成を要求する
- 攻撃者は次のプロンプトで各トピックの詳細な説明を要求する
- 大規模言語モデルはこの時点で有害なコンテンツを生成することがある
- 攻撃者は3回目のプロンプトで、有害なトピックについて踏み込んだ説明を要求する
- 大規模言語モデルはさらに一歩踏み込んだ有害なコンテンツを生成する
LLMの限界
Palo Alto Networksによると、現在のLLMの「注意力」には限界があり、複雑なロジックを持つプロンプトを処理すると注意力が低下するという。この問題点を悪用することで有害なコンテンツを生成するように誘導する手法が「Deceptive Delight(欺瞞の喜び)」の本質とされる。
ここで言う注意力とは人間の短期記憶に相当する能力のことで、LLMのコンテキスト(文脈)保持能力の限界を意味している。LLMはこの制限により複雑なプロンプトから重要な情報を見落とすことがあり、安全なトピックと有害なトピックが混ざったときにその傾向が強くなるという。
Palo Alto Networksは研究報告の中で複数の回避策を提示しているが、結論としてプロンプトインジェクション攻撃を完全に回避することは不可能だろうと述べている。しかしながら、この事実は危険性の証明として捉えるべきではなく、むしろ多層防御戦略の重要性の証明と捉えるべきだとし、生成AIの開発企業に対して継続的な対策の実施を求めている。