Guardrails (Schutzplanken) — Glossar | 24 AI

Guardrails (guardrails) sind Kontrollen, die die Ein- und Ausgaben eines KI-Systems begrenzen, damit es innerhalb der zulässigen Grenzen bleibt. Anders als die durch Training ins Modell eingebaute Sicherheit sind Guardrails eine eigene Schicht, die um das Modell herum sitzt — zwischen Nutzer und großem Sprachmodell.

Üblicherweise kombinieren sie Eingabe- und Ausgabeprüfungen: Inhaltsklassifikatoren (Hass, Gewalt, Selbstverletzung), Erkennung personenbezogener Daten (PII), Themenfilter sowie Detektoren für Jailbreaks und Prompt Injection. Eine nicht bestandene Prüfung blockiert oder überschreibt die Antwort, bevor sie den Nutzer erreicht.

In den Jahren 2025–2026 sind Guardrails zum Standardprodukt geworden: Anthropics „Constitutional Classifiers” filtern die überwältigende Mehrheit der Jailbreaks bei minimalen Fehlablehnungen, während OpenAI ein konfigurierbares Guardrails-Framework mit Prüfungen für Moderation, PII und Prompt Injection anbietet. Da Guardrails probabilistisch und umgehbar sind, ergänzen sie KI-Sicherheit und sorgfältige Evaluierung — sie ersetzen sie nicht.

Quellen