安全
レッドチーム(red team)
プロンプトインジェクション、脱獄、悪用などの攻撃手法でAIシステムを構造的にテストし、本番投入前に脆弱性、危険な振る舞い、悪用シナリオを発見する実践です。
**レッドチーム(red team)**は、自社のAIシステムを資格のあるテスター集団が意図的に攻撃する実践であり、システムが危険、ミスアラインメント、または望ましくないことをするシナリオを発見することを目的とします — 悪意のある外部行為者や有給ジャーナリストがそれを発見する前に。
この用語は軍事およびサイバーセキュリティから借用されていますが、AIレッドチームには独自の特殊性があります:
- プロンプトインジェクション — モデルがシステムプロンプトを無視するか、隠された指示を明らかにするよう仕向ける試み
- 脱獄(Jailbreak) — セーフティ学習を回避し、モデルが通常拒否するコンテンツ(武器、インフラへの攻撃、違法アドバイス)を生成させる
- 能力誘発(Capability elicitation) — モデルが慎重に支援された場合に危険なタスクを実行できるかを確認
- 悪用シナリオ — フィッシングメール、悪意あるコード、偽情報の作成
- 偏見と公平性 — ステレオタイプ、差別的判断の生成
大手研究所(OpenAI、Anthropic、Google DeepMind)は今や日常的に「system cards」を作成・公開し、各フロンティアモデルのレッドチーム手順を詳述しています。EU AI ActとUK AISIの評価は、システムリスクを持つGPAIに対してレッドチームを要求します。
レッドチームはAIセーフティとアラインメント技術の補完であり、代替ではありません — レッドチームが見つけないものは、本番でユーザーまたは攻撃者が見つけるでしょう。専門のレッドチーム企業とバグバウンティプログラムの業界全体が2023年以降に生まれました。