お知らせ: 酷似サイトにご注意ください

AIモデルは人を欺くトレーニングが可能 - Anthropicの研究者らが指摘

掲載日 2024/01/15 12:03

鍵アイコン

著者：末岡洋子

AIモデルは人を欺くようにトレーニングできるという論文が公開された。有害な行動を検出する安全性チェックを欺く「Sleeper Agents」のAIモデルが構築できるというのだ。

現状における安全性を担保する手法は、一部のAIリスクに誤った安心感を生む

この記事は
Members+会員の方のみ御覧いただけます

ログイン／無料会員登録

会員サービスの詳細はこちら

AIが勧める、あなたのための会員限定記事

アクセスランキング

ランキングをもっと見る

もっと見る

編集部が選ぶ関連記事

※本記事は掲載時点の情報であり、最新のものとは異なる場合があります。予めご了承ください。

新着記事

こちらも注目

このカテゴリーについて

開発/エンジニアシステムやソフトウェアの開発に携わるエンジニアに向けた最新情報など仕事に役立つ話題などを提供していきます。