Sicherheit

Constitutional AI

Anthropics Methode zum Alignment von Modellen mittels eines schriftlichen Prinzipiensatzes (einer Verfassung) plus KI-Feedback (RLAIF) statt menschlicher Schädlichkeitslabels.

Constitutional AI (CAI) ist eine von Anthropic entwickelte Alignment-Methode für Sprachmodelle. Statt sich darauf zu verlassen, dass Menschen schädliche Ausgaben von Hand kennzeichnen, wird das Modell durch einen schriftlichen Satz von Prinzipien — eine „Verfassung” — und durch Feedback gesteuert, das die KI selbst liefert.

Der Prozess läuft in zwei Phasen ab. In der überwachten Phase erzeugt das Modell Antworten, kritisiert und überarbeitet sie anhand der Prinzipien der Verfassung und wird auf diesen Überarbeitungen feinabgestimmt. In der Reinforcement-Learning-Phase vergleicht das Modell Antwortpaare und wählt jenes, das der Verfassung besser folgt; aus diesen KI-generierten Präferenzen wird ein Reward-Modell trainiert. Diese Variante heißt RLAIF (RL from AI Feedback) und spiegelt direkt RLHF wider, entfernt aber den Menschen aus der Bewertungsschleife.

Die Verfassung bezieht Prinzipien aus Quellen wie der Allgemeinen Erklärung der Menschenrechte. CAI bildet die Grundlage des Trainings von Claude und bleibt ein aktuelles KI-Sicherheits-Thema, da sie skalierbare Aufsicht ermöglicht und Verhaltensregeln explizit und überprüfbar macht.

Quellen

Siehe auch