お知らせ: 酷似サイトにご注意ください

Microsoftが生成AI悪用を可能にするAIジェイルブレイクを指摘、回避策も提示

掲載日 2024/06/05 19:02

著者：後藤大地

Microsoftは6月4日(米国時間)、「AI jailbreaks: What they are and how they can be mitigated｜Microsoft Security Blog」において、生成AIの悪用を可能にするAIジェイルブレイクについて解説した。

AI jailbreaks: What they are and how they can be mitigated｜Microsoft Security Blog

「AIジェイルブレイク」とは

2022年にOpenAIがChatGPTを公開してから、生成AIは急激な発展と普及を続けている。現在ではテキスト生成以外にも音声、画像、動画などを簡単に生成できるようになり、広告やコンテンツ制作などにも活用されている。生成AIは無の状態から情報を生み出しているわけではなく、膨大な学習データとディープラーニング(深層学習)によりさまざまな形の機械学習モデル(AIモデル)を作成し、その能力の範囲内で出力を得る。

この膨大な学習データには悪用可能な情報が含まれており、多くの大規模言語モデル(LLM: Large Language Model)の学習データにも含まれている。ChatGPTやGeminiのような有名な生成AIも悪用可能な回答を生成する能力があり、積極的に悪用しようとするユーザーが存在する。

多くのAI(Artificial Intelligence)開発企業は悪用を防ぐためにさまざまな防衛策を講じており、近年は悪用可能な情報を簡単に出力できないようになっている。しかしながら、この防衛策を突破するプロンプトインジェクションなどの試みがあり、この防衛策を突破する行為がAIジェイルブレイクと呼ばれている。

ChatGPTに火炎瓶の作り方を出力させるAIジェイルブレイクの例　引用：Microsoft

生成AIを攻撃可能な理由

Microsoftは生成AIの機械学習モデルを次のように例えている。

本質的に、機械学習モデルは熱心で知識豊富だが、ビジネス環境における経験と成熟に伴う判断力、状況理解、境界線の遵守が欠けた従業員に例えることができる。

つまり、人間のような出力は可能だが、人格者のような行動ができるわけではなく、適切な保護が施されていない場合は有害なコンテンツを生成し、場合によっては問題のある行動を実行して機密情報を漏洩する可能性がある。

そこでMicrosoftはこのような問題を軽減するために、AIの実装に対してゼロトラストアプローチの採用を推奨している。すべての機械学習モデルはAIジェイルブレイクの影響を受けると想定し、攻撃を受けた場合の潜在的な損害を抑制できるように実装する。

保護のガイダンス

MicrosoftはAzure AIや各種Copilotソリューションに対し、AIシステムを保護する多層防御アプローチを採用している。Azure内で独自のAIソリューションを構築する場合にAIジェイルブレイクの軽減策として使用できるテクノロジーとして次のものを挙げ、開発者に有効活用を推奨している。

AIアプリケーションを保護する多層防御アプローチの概念図　引用：Microsoft

Microsoftは今回、AIジェイルブレイクの解説と基礎的なガイダンスを伝えた。今後は、新たに発見されたAIジェイルブレイクの技術的詳細を解説する予定としている。

新規無料会員登録はこちらから

ログイン／無料会員登録

会員サービスの詳細はこちら

AIが勧める、あなたのための会員限定記事

アクセスランキング

ランキングをもっと見る

もっと見る

編集部が選ぶ関連記事

関連リンク

Microsoft Corporation

※本記事は掲載時点の情報であり、最新のものとは異なる場合があります。予めご了承ください。

新着記事

こちらも注目

このカテゴリーについて

セキュリティの最新技術を紹介します。マルウェアやフィッシングサイトはもちろん、標的型攻撃、ハクティビストなども網羅します。