Sicherheit
Red Team
Strukturiertes Testen von KI-Systemen mit Angriffsmethoden — Prompt Injection, Jailbreak, Missbrauch — um Schwachstellen vor dem Produktiveinsatz aufzudecken.
Red Team (red team) ist die Praxis, das eigene KI-System gezielt durch qualifizierte Tester anzugreifen, um Szenarien aufzudecken, in denen das System etwas Gefährliches, Nicht-aligntes oder Unerwünschtes tut — bevor es ein bösartiger externer Akteur oder ein bezahlter Journalist entdeckt.
Der Begriff stammt aus der militärischen und Cybersicherheits-Welt, doch KI-Red-Teaming hat seine Eigenheiten:
- Prompt Injection — Versuch, das Modell dazu zu bringen, den System-Prompt zu ignorieren oder versteckte Anweisungen offenzulegen
- Jailbreak — Umgehung des Safety-Trainings, damit das Modell Inhalte produziert, die es sonst verweigern würde (Waffen, Angriffe auf Infrastruktur, illegale Beratung)
- Capability Elicitation — prüft, ob das Modell überhaupt in der Lage ist, eine gefährliche Aufgabe zu erfüllen, wenn man ihm sorgfältig hilft
- Misuse-Szenarien — Verfassen von Phishing-E-Mails, bösartigem Code, Desinformation
- Bias und Fairness — Erzeugung von Stereotypen, diskriminierenden Entscheidungen
Große Labore (OpenAI, Anthropic, Google DeepMind) verfassen und veröffentlichen heute routinemäßig „System Cards”, die das Red-Team-Verfahren für jedes Frontier-Modell detailliert beschreiben. Der EU AI Act und Evaluierungen des UK AISI verlangen Red Teaming für GPAI mit systemischem Risiko.
Red Teaming ist ein Komplement, kein Ersatz für KI-Sicherheits- und Alignment-Techniken — was ein Red Team nicht findet, wird ein Nutzer oder Angreifer in der Produktion finden. Eine ganze Industrie spezialisierter Red-Team-Firmen und Bug-Bounty-Programme ist seit 2023 entstanden.