OpenAIがGPT-5.5向けにBio Bug Bountyを開始した。報奨金は最大25,000ドルで、バイオ安全性ガードを外部の研究者が突破できるかを試す取り組みだ。

この記事でわかること:

  • Bio Bug Bountyの概要と目的
  • 挑戦の具体的な内容と条件
  • 参加方法とスケジュール
  • なぜ外部テストがAI安全性に意味を持つのか

Bio Bug Bountyとは

https://openai.smapply.org/prog/gpt-5-5-safety-bio-bounty-program/

OpenAIが開設したBio Bug Bountyは、GPT-5.5のバイオ安全ガードを外部の研究者が突破できるかを検証するプログラムだ。対象モデルはCodex Desktop上のGPT-5.5のみで、一般公開ではなくAI red teamingやバイオセキュリティの経験者を対象にした招待・応募制となっている。

参加者が取り組む課題は「ユニバーサル・ジェイルブレイク」の発見だ。1つのプロンプトだけを使い、クリーンな状態のチャットからGPT-5.5に5つのバイオ安全質問すべてに答えさせる必要がある。この際、モデルのモデレーション機能を回避することが条件になる。

なぜバイオ安全性が重視されるのか

OpenAIはGPT-5.5のPreparedness Frameworkにおいて、生物・化学領域での能力を「High(高)」と分類している。AIモデルの能力が高まるにつれて、悪意ある利用者が生物学的に有害な情報を引き出せるリスクも広がる。

GPT-5.5のSystem Cardによると、リリース前に内部でオフラインのred-teamingを実施し、SecureBioが提供するウイルス学トラブルシューティング問題350問など複数のベンチマークで評価した。Bio Bug Bountyはこの内部評価を補完するものとして位置づけられている。内部だけでなく、外部からの敵対的な視点を取り込むことで、設計者が見落とした攻撃パターンを発見するのが狙いだ。

なぜCodex Desktopが対象なのか

テスト環境をCodex Desktopに限定した点は注目に値する。Codex Desktopはコード実行・ツール呼び出し・段階的な計画立案が組み合わさる環境で、通常のチャットに比べて悪用の経路が多い。ツールや自動処理を通じてモデルの制約を迂回できるリスクを、専用の環境で集中的に検証する必要があると判断したとみられる。

報奨金の仕組みと参加条件

https://openai.smapply.org/prog/gpt-5-5-safety-bio-bounty-program/

報奨金は成功の程度によって変わる。5問すべてに答えさせるユニバーサル・ジェイルブレイクを最初に達成した研究者には25,000ドルが贈られる。部分的な成功に対しても、OpenAIの裁量で追加報奨が支払われる可能性がある。

参加するには、AI red teaming・セキュリティ・バイオセキュリティのいずれかに関する実績が必要だ。OpenAIが信頼できるred teamerに招待を送るほか、新規応募も受け付けている。選考通過後はNDA(秘密保持契約)に署名し、プロンプト・出力・発見内容を外部に公開しない義務を負う。

スケジュールは次の通りだ。

  • 応募受付: 2026年4月23日〜6月22日(PDT)
  • テスト期間: 2026年4月28日〜7月27日

初回コホートに選ばれなかった場合も、後続のコホートで選出される可能性があるため再応募は不要だ。

外部テストがAI安全性に持つ意味

内部評価と外部red teamingの組み合わせは、Preparedness Frameworkが想定するアプローチだ。内部テストは設計者が想定する攻撃への耐性を確かめる一方、外部の研究者は設計者が見逃した創造的な手法を試みる。

今回のBio Bug Bountyが「ユニバーサル・ジェイルブレイク」に焦点を当てている点も重要だ。単発の回避策ではなく、自動化ツールに組み込んだり広く再配布できたりする汎用プロンプト攻撃を検出することで、実際の悪用シナリオに近い検証ができる。

OpenAIがこのプログラムの結果をどう報告し、Codex Desktopやモデル自体にどんな対策を反映させるかは今後の注目点だ。招待制・NDA付きという枠組みは、脆弱性情報を管理しながら安全性を高める責任ある開示の一形態として、他のモデル提供者にも参考になりうる事例だ。