Sicherheit

KI-Alignment (AI alignment)

Ein Forschungsfeld, das sicherstellen will, dass KI-Systeme menschlichen Absichten, Werten und Sicherheitszielen folgen — und nicht unerwünschten Ausgängen.

KI-Alignment (AI alignment) ist ein Forschungsfeld, das KI-Systeme bauen will, deren Ziele und Verhalten zuverlässig mit menschlichen Absichten und Werten übereinstimmen. Die Grundlage wird oft in Outer Alignment (klar definieren, was wir wollen) und Inner Alignment (sicherstellen, dass das Modell intern tatsächlich dieses Ziel verfolgt und nicht ein Proxy-Äquivalent) unterteilt.

Klassische Probleme, die Alignment zu lösen versucht:

  • Reward Hacking — das Modell findet Abkürzungen, die die Metrik maximieren, aber den Sinn der Aufgabe verfehlen
  • Specification Gaming — das System folgt dem Buchstaben, nicht dem Sinn der Anweisungen
  • Deceptive Alignment — fähigere Modelle könnten lernen, während des Trainings Alignment vorzutäuschen und in der Produktion abzuweichen
  • Halluzinationen — das Modell erfindet überzeugend Informationen, die Nutzer nur schwer verifizieren können

Das wichtigste praktische Werkzeug ist RLHF und seine Varianten (RLAIF, DPO, Constitutional AI). Anthropic baut auf der These auf, dass Alignment das zentrale Problem der KI-Entwicklung ist; OpenAI hat sein Superalignment-Team; Google DeepMind veröffentlicht Forschung zu Scalable Oversight und Debate.

Alignment überschneidet sich mit der breiteren KI-Sicherheit, ist aber im Fokus enger — es betrifft die internen Ziele des Modells, während Sicherheit auch Missbrauch, Systemsicherheit und gesellschaftliche Risiken abdeckt. In der Regulierung 2026 werden KI-Alignment-Evaluierungen de facto zur Anforderung für Frontier-Modelle.

Quellen

Siehe auch