🟡 🤝 Agenten Montag, 4. Mai 2026 · 2 Min. Lesezeit ·

ArXiv AEM: Adaptive Entropiemodulation für Multi-Turn-RL-Agenten erreicht +1,4 % auf SWE-bench Verified

Editorial illustration: ArXiv AEM: Adaptive Entropiemodulation für Multi-Turn-RL-Agenten erreicht +1,4 % auf SWE-bench Verified

AEM (Adaptive Entropy Modulation) ist eine überwachungsfreie Trainingsmethode, die Entropie über mehrere Gesprächsrunden dynamisch moduliert, um Exploration und Exploitation in RL-trainierten agentischen Sprachmodellen zu balancieren. Getestet an Modellen von 1,5 bis 32 Milliarden Parametern erzielt sie +1,4 % auf SWE-bench Verified.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Ein Forscherteam — Haotian Zhao, Yuxin Zhang, Songlin Zhou und Mitautoren — veröffentlichte AEM (Adaptive Entropy Modulation), eine überwachungsfreie Trainingsmethode für agentische Sprachmodelle mittels bestärkendem Lernen (RL), die das instabile Training bei Multi-Turn-Aufgaben direkt angeht.

Welches Problem löst AEM?

Standard-RL-Methoden für mehrstufige agentische Aufgaben leiden unter instabilem Training, weil der Agent Exploration und Exploitation in frühen und späten Gesprächsrunden unterschiedlich balancieren muss. In frühen Runden entdeckt der Agent noch, wie die Aufgabe aussieht; in späteren hat er bereits Signal und soll die besten Lösungen ausnutzen. Feste RL-Hyperparameter erfassen diese Dynamik nicht.

Standard-Entropie-Boni auf Token-Ebene liefern schwache Ergebnisse, weil die Entropie eines einzelnen Tokens ein schlechter Proxy dafür ist, wie viel das System im Multi-Turn-Sinne exploriert.

Wie funktioniert die adaptive Modulation?

AEM analysiert Entropie auf Antwortebene, nicht auf Einzeltoken-Ebene. Die Autoren leiten einen praktischen Proxy ab, der einen natürlichen Übergang von Exploration zu Exploitation ermöglicht — geleitet von zwei Signalen:

  • Advantage — Bewertung, wie viel besser die Antwort gegenüber der Baseline-Policy ist
  • Relative Response Surprisal — wie “unerwartet” die Antwort unter dem aktuellen Modell ist

Dieses System ist nicht überwacht — es erfordert keine manuelle Annotation von „wann zu explorieren”, sondern misst den Trainingszustand direkt.

Welche Modelle und welcher Benchmark?

Experimente umfassen Modelle von 1,5 bis 32 Milliarden Parametern. Die Hauptevaluierung erfolgt auf SWE-bench Verified, dem Industriestandard für agentische Sprachmodelle bei Programmieraufgaben.

Ergebnis: 1,4 % absolute Verbesserung, wenn AEM in eine state-of-the-art Baseline integriert wird. Ein solider, wenn auch kein dramatischer Gewinn — bedeutsam, weil er ohne zusätzliche Supervisoren oder Änderungen an der RL-Grundformulierung erzielt wird.

Was sagt das über den Trend?

AEM ist das fünfte Paper zum RL-Training agentischer Systeme in den letzten zwei Wochen auf ArXiv — neben Latent-GRPO und Exploration Hacking. Das Feld konzentriert sich intensiv auf die Stabilisierung des Multi-Turn-Trainings, was eine Voraussetzung für zuverlässige Produktionsagenten ist. AEMs überwachungsfreier Ansatz ist besonders attraktiv für Labore, die keine manuell annotierten Trainingsdaten in ausreichender Menge sammeln können.

Häufig gestellte Fragen

Was ist Entropie im Kontext des RL-Trainings von Sprachmodellen?
Ein Maß für die Unsicherheit bei der Auswahl des nächsten Tokens oder der Antwort — höhere Entropie bedeutet mehr Exploration verschiedener Optionen, niedrigere Entropie bedeutet Ausnutzung bereits gelernter Muster.
Warum moduliert AEM Entropie auf Antwortebene statt auf Token-Ebene?
Entropie auf Token-Ebene korreliert schlecht mit der Qualität des Multi-Turn-Agentenverhaltens; die Analyse auf Antwortebene bietet einen präziseren Proxy dafür, wann Exploration in Exploitation übergehen sollte.
Was ist SWE-bench Verified?
Ein branchenüblicher Benchmark zur Bewertung agentischer Sprachmodelle bei Software-Engineering-Aufgaben — Verifizierung von Lösungen für echte GitHub-Issues.