Red Team

Red Team (red team) ist die Praxis, das eigene KI-System gezielt durch qualifizierte Tester anzugreifen, um Szenarien aufzudecken, in denen das System etwas Gefährliches, Nicht-aligntes oder Unerwünschtes tut — bevor es ein bösartiger externer Akteur oder ein bezahlter Journalist entdeckt.

Der Begriff stammt aus der militärischen und Cybersicherheits-Welt, doch KI-Red-Teaming hat seine Eigenheiten:

Prompt Injection — Versuch, das Modell dazu zu bringen, den System-Prompt zu ignorieren oder versteckte Anweisungen offenzulegen
Jailbreak — Umgehung des Safety-Trainings, damit das Modell Inhalte produziert, die es sonst verweigern würde (Waffen, Angriffe auf Infrastruktur, illegale Beratung)
Capability Elicitation — prüft, ob das Modell überhaupt in der Lage ist, eine gefährliche Aufgabe zu erfüllen, wenn man ihm sorgfältig hilft
Misuse-Szenarien — Verfassen von Phishing-E-Mails, bösartigem Code, Desinformation
Bias und Fairness — Erzeugung von Stereotypen, diskriminierenden Entscheidungen

Große Labore (OpenAI, Anthropic, Google DeepMind) verfassen und veröffentlichen heute routinemäßig „System Cards”, die das Red-Team-Verfahren für jedes Frontier-Modell detailliert beschreiben. Der EU AI Act und Evaluierungen des UK AISI verlangen Red Teaming für GPAI mit systemischem Risiko.

Red Teaming ist ein Komplement, kein Ersatz für KI-Sicherheits- und Alignment-Techniken — was ein Red Team nicht findet, wird ein Nutzer oder Angreifer in der Produktion finden. Eine ganze Industrie spezialisierter Red-Team-Firmen und Bug-Bounty-Programme ist seit 2023 entstanden.

Quellen

Siehe auch