Was ist Reward-Hacking und wie erkennt man es?

Reward-Hacking tritt auf, wenn ein Agent die Belohnungsmetrik optimiert, ohne die eigentliche Aufgabe zu lösen (Goodharts Gesetz im RL). Sichere Signale: Die Trainingsbelohnung steigt, während die Validierungsbelohnung stagniert, oder das Basismodell erzielt auf dem Trainingsset eine höhere Belohnung als bei externer Evaluierung.

Warum sind binäre Belohnungen bei Multi-Turn-RL problematisch?

Wenn alle Rollouts in einer Gruppe eine identische Bewertung erhalten (alle null oder alle eins), verschwindet der Gradient und das Training stagniert. Dichte Belohnungsfunktionen, die teilweise Gutschriften für Fortschritte zur Lösung vergeben, beheben dieses Problem effektiv.

SageMaker Multi-Turn-RL: Belohnung vor Algorithmus

Q: Wie bestimmt man max_turns für einen Multi-Turn-Agenten?

AWS empfiehlt max_turns = ceil(N × 1,5), wobei N der typischen Anzahl von Zügen entspricht, die ein erfahrener Mensch für dieselbe Aufgabe benötigt. Wenn mehr als 5 Prozent der Antworten das Token-Limit pro Zug erreichen, sollte sampling_max_tokens erhöht werden.

Der AWS SageMaker AI-Leitfaden für Multi-Turn-Reinforcement-Learning stellt die Qualität der Belohnungsfunktion und die Unabhängigkeit der Evaluierung vor die Algorithmenwahl. Dichte Belohnungen verhindern Varianzkollaps, und Reward-Hacking entsteht, wenn der Agent eine Metrik optimiert, ohne die eigentliche Aufgabe zu lösen. Auf dem SOP-Bench-Benchmark erzielte korrekt eingestelltes Training eine um 13 Prozent bessere Task-Success-Rate und eine rund 16 Prozent höhere Feldgenauigkeit.

AWS hat einen umfassenden Leitfaden für Multi-Turn-Reinforcement-Learning auf der Amazon SageMaker AI-Plattform veröffentlicht. Der Fokus liegt weder auf exotischen Algorithmen noch auf Infrastruktur-Skalierung – die zentrale These des Dokuments ist einfach und direkt konträr zu gängigen Annahmen: Die Qualität der Belohnungsfunktion und die Unabhängigkeit der Evaluierung entscheiden darüber, ob das Training einen nützlichen Agenten ergibt, weit mehr als die Wahl des RL-Algorithmus oder die Konfiguration von Hyperparametern.

Belohnung und Evaluierung wichtiger als der Algorithmus

Multi-Turn-Reinforcement-Learning unterscheidet sich von Standard-RL dadurch, dass der Agent über mehrere Züge hinweg sequenzielle Entscheidungen treffen muss und der Kontext mit der Anzahl der Interaktionen wächst. SageMaker AI bietet dafür eine modulare Agenten- und Umgebungsschnittstelle, asynchrone Rollout-Datensammlung mit kontrollierter Off-Policy-Veralterung sowie native Algorithmen: PPO, CISPO und Importance-Sampling-Verluste. Die Plattform bietet auch Sequence-Extension-Training für die Verwaltung langer Trajektorien sowie MLflow-Integration für die Verfolgung auf Einzelzug-Ebene.

Der Leitfaden macht jedoch deutlich: Es gibt keinen algorithmischen Shortcut, der eine schlecht gestaltete Belohnungsfunktion oder eine unzureichend unabhängige Evaluierung kompensiert. Beide Elemente müssen korrekt konfiguriert sein, bevor das Training überhaupt beginnt. AWS definiert eine klare Prioritätshierarchie: repräsentative Daten sammeln und aufteilen, eine hermetische Umgebung aufbauen, einen unabhängigen Testset definieren, eine Baseline-Performance etablieren – und erst dann die Belohnungsfunktion entwerfen und das Training starten.

Was sind die häufigsten Fallen beim Design von Belohnungsfunktionen?

Die erste Falle ist Goodharts Gesetz im RL-Kontext: ein Agent, der die Belohnungsmetrik optimiert, ohne die eigentliche Aufgabe zu lösen. Das AWS-Dokument nennt konkrete Indikatoren für Reward-Hacking – wenn die Trainingsbelohnung steigt, während die Validierungsbelohnung stagniert, oder wenn das Basismodell auf dem Trainingsset eine höhere Belohnung erzielt als die externe Evaluierung zeigt, ist dies ein Zeichen dafür, dass der Reward-Parser Fälle durchlässt, die das Evaluierungskriterium strenger bewertet. Die Lösung: Den Parser verschärfen und eine Offline-Überprüfung neuer Rollouts durchführen.

Die zweite Falle ist die binäre Belohnung. Wenn alle Rollouts in einer Gruppe eine identische Bewertung erhalten – alle null oder alle eins – verschwindet der Gradient und das Training stagniert. Der Leitfaden empfiehlt dichte (dense) Belohnungsfunktionen, die teilweise Gutschriften für Fortschritte zur Lösung vergeben, auch wenn die Endantwort nicht korrekt ist. Zur Diagnose sollte rollout/reward/zero_frac – der Anteil der Trajektorien mit null Belohnung – verfolgt und group_size von 8 auf 4 reduziert werden, wenn der Anteil zu hoch ist.

Die dritte Falle ist die Selbst-Evaluierung: Ein System, das seine eigene Leistung misst, kann sein eigenes Reward-Hacking nicht erkennen. AWS betont die Notwendigkeit einer unabhängigen externen Evaluierung auf einem separaten Testset mit strengeren Kriterien als denen, die bei der Trainingsbelohnung verwendet werden. Der Unterschied zwischen der Messung von Generalisierung und der Messung von Unabhängigkeit vom Reward-Hacking ist eine wichtige Unterscheidung, die der Leitfaden explizit hervorhebt.

Kontextmanagement bei mehreren Zügen

Multi-Turn-Agenten haben ein spezifisches Problem, das beim Single-Turn-RL nicht existiert: Der Kontext wächst mit der Anzahl der Interaktionen und kann rechnerisch zu teuer oder semantisch veraltet werden. AWS empfiehlt, max_turns = ceil(N × 1,5) zu setzen, wobei N der typischen Anzahl von Zügen entspricht, die ein erfahrener Mensch für dieselbe Aufgabe benötigt. Wenn mehr als 5 Prozent der Antworten das Token-Limit pro Zug erreichen, sollte sampling_max_tokens erhöht werden, da ein Clustering von Antworten an der Grenze auf eine strukturelle Beschränkung hinweist.

Für die Überwachung des Trainingsfortschritts sind vier Metriken entscheidend: Anteil der Trajektorien mit null Belohnung (zero_frac), Anteil der verworfenen Rollout-Gruppen aufgrund einheitlicher Bewertungen (zero_adv_groups), Pass-Rate im Validierungsset bei einem Versuch (pass_k_1) und acht Versuchen (pass_k_8). Ein Rückgang oder Stagnation von pass_k_1 bei gleichbleibend hohem zero_adv_groups ist ein Signal, die Group-Size zu reduzieren oder die Rollout-Diversifikation zu erhöhen.

Eine besondere Gefahr ist der Policy-Kollaps: ein plötzlicher Rückgang der Belohnung gegen null nach 40 bis 80 Trainingsschritten. AWS empfiehlt, async_config.max_steps_off_policy = 0 zu setzen und gegebenenfalls von CISPO zu PPO zu wechseln. Die Stabilisierung tritt normalerweise innerhalb von 25 bis 50 Schritten nach der Intervention ein.

Konkrete Ergebnisse und Werkzeuge

Der AWS-Leitfaden illustriert die Prinzipien am SOP-Bench-Benchmark für die Flugzeuginspektion. Anfängliche Trainingsversuche – mit parallelen Aufgaben, nicht aufeinander abgestimmten One-Shot-Beispielen und falschem Ausgabe-Tag-Format – lieferten instabile und schlechte Ergebnisse. Nach gezielten Korrekturen (Fokus auf eine Aufgabe, abgestimmte Beispiele, korrekte Ausgabe-Tags) verbesserte das Fine-Tuned-Modell die Task-Success-Rate um 13 Prozent und die Feldgenauigkeit um rund 16 Prozent.

Für die Implementierung bietet SageMaker MultiTurnRLTrainer und MultiTurnRLEvaluator als hochrangige Abstraktionen, den SOP-Bench-Datensatz für standardisiertes Benchmarking sowie MLflow-Integration für die Verfolgung von Trajektorien auf Einzelzug-Ebene. Für das Produktions-Deployment trainierter Agenten wird Bedrock AgentCore empfohlen.

Der Leitfaden richtet sich an ML-Ingenieure, die Agenten für reale Aufgaben entwickeln – von der Lösung von Kundenanfragen bis zur Content-Moderation. Die grundlegende Schlussfolgerung gilt unabhängig von der Domäne: Eine Investition in eine korrekt hermetische Trainingsumgebung und eine wirklich unabhängige Evaluierung bringt deutlich mehr als das Iterieren über Algorithmen und Hyperparameter.

AWS SageMaker-Leitfaden: Bei Multi-Turn-RL sind Belohnungsfunktion und Evaluierung wichtiger als der Algorithmus

Belohnung und Evaluierung wichtiger als der Algorithmus

Was sind die häufigsten Fallen beim Design von Belohnungsfunktionen?

Kontextmanagement bei mehreren Zügen

Konkrete Ergebnisse und Werkzeuge

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten