KI-Sicherheit (AI safety)

KI-Sicherheit (AI safety) ist ein interdisziplinäres Feld, das sich mit den Risiken von KI-Systemen befasst — von konkreten Fehlern und Missbrauch heute bis hin zu langfristigen existenziellen Bedenken im Zusammenhang mit hochfähigen Systemen.

Typische Risikoeinteilung:

Misuse: Erzeugung von Deepfakes, Desinformation, Malware-Code, biochemischen Anleitungen; bewusster Missbrauch
Accidents: Halluzinationen, Systeme, die in guter Absicht das falsche tun (autonomes Fahrzeug, medizinische Beratung)
Structural: Machtkonzentration, Auswirkungen auf den Arbeitsmarkt, Überwachung, Missbrauch durch Staaten
Catastrophic / existenziell: zukünftige Systeme, die menschlicher Aufsicht entzogen sind

Praktische Werkzeuge umfassen: Evaluierungen von Fähigkeiten und gefährlichen Verhaltensweisen, Red Teams, Interpretierbarkeit (mechanistische Analyse interner Repräsentationen), Monitoring in der Produktion, Zugriffskontrollen, „Model Cards” und „System Cards”, Responsible Scaling Policies (Anthropic), Preparedness Frameworks (OpenAI), Frontier Safety Frameworks (Google DeepMind).

Institutionell brachten 2024–2026 eine Welle staatlicher KI-Sicherheits-Institute (UK, US, Singapur, EU, Kroatien indirekt über das EU AISB). Der EU AI Act verankert einige Sicherheitsanforderungen im Gesetz — verpflichtende Evaluierungen für GPAI mit systemischem Risiko, Transparenz, menschliche Aufsicht bei hohem Risiko.

KI-Sicherheit wird oft mit KI-Alignment verwechselt — Alignment ist enger fokussiert (interne Ziele des Modells), während Sicherheit das gesamte soziotechnische System rund um die KI umfasst.

Quellen

Siehe auch