OpenAI、バグ報奨金プログラムを開始、ただし"脱獄"などモデル問題は対象外

米OpenAIは4月11日（現地時間）、米Bugcrowdと提携した「バグ報奨金プログラム」を開始した。セキュリティ研究者やホワイトハッカーの力を借りて、AI技術のサイバーセキュリティ・リスクの増大に対応する。脆弱性の報告に対して、最大2万ドルの報酬を支払うが、プロンプトや対話のコンテンツに関する問題は報酬の対象外としている。

プログラムは、Bugcrowdのバグ報奨金プラットフォームを利用しており、200ドル〜6,500ドル/脆弱性に報奨金を設定している（開始から15件の報酬が支払われた時点の平均支払い額は1,287ドル）。さらに「例外的な報告」に対して最大20,000ドルの報酬を支払う。脆弱性の評価にはBugcrowd Vulnerability Rating Taxonomyを使用している。

3月にOpenAIがChatGPT APIを発表した後、数週間後に80以上の隠されたプラグインが表示される問題がハッカーによって公になった。その際に「（信じられないペースでChatGPTに新機能を導入しているOpenAIが）バグ報奨プログラムを運営していないのは非常に驚くことだ」と、ハッカーから指摘されていた。発表においてOpenAIは、プライバシーとセキュリティの高い基準の維持に「透明性とコラボレーションが不可欠である」と述べ、協調的な情報開示のコミットメントの構築に意欲を示した。

対話型AIの安全に関してはシステムの問題だけではなく、例えばチャットボットに「悪の双子」を演じさせて、ヘイトスピーチや武器の作り方といった禁じられた反応を引き出すといったケースが報告されている。だが、そうした「ジェイルブレイク（脱獄:対話型AIが答えられない質問でも強引に引き出す）」が可能な問題はバグ報奨金の対象にならない。

AIモデルの安全性に関する問題については、直接的に修正できる個別のバグではないため、「バグ報奨金プログラムの範囲に当てはまらない」としている。「モデルから不適切な対応を引き出す」「悪意のあるコードをモデルに書かせる」といったDAN（Do Anything Now）や関連するプロンプトは対象外。また、モデルが現実に即していない情報、または現実とは異なる情報を生成するハルシネーション（Model Hallucination）も対象外になる。そうした問題に関しては、モデルのふるまいの問題について報告を受け付ける「Model behavior feedback」を用意しており、フィードバックを通じた協力を呼びかけている。