arXiv:2605.06642: StraTA agentisches RL-Framework

Das StraTA-Framework führt hierarchisches GRPO-Rollout-Design für RL-Agentenraining ein — das Modell generiert zunächst eine übergeordnete Strategie und führt dann Aktionen in diesem Rahmen aus. Ergebnisse: ALFWorld 93,1 %, WebShop 84,2 %, SciWorld 63,5 %. SciWorld übertrifft geschlossene Frontier-Systeme — Trajektorienabstraktion löst die Schwächen reaktiver Agenten.

Die Forschungsarbeit „StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction” (Xue et al., arXiv:2605.06642), veröffentlicht am 7. Mai 2026, stellt einen neuen Ansatz für das RL-Training von LLM-Agenten vor: explizite Strategieplanung vor der Aktionsausführung. Das Team vom Shanghai AI Lab und der Universität Oxford erzielt Ergebnisse, die in einem Benchmark sogar geschlossene Frontier-Systeme übertreffen.

Wie funktioniert hierarchisches GRPO?

GRPO (Group Relative Policy Optimization) ist ein RL-Algorithmus, der Stichprobengruppen innerhalb eines Batches vergleicht — ohne separates Value-Modell. StraTA wendet ihn hierarchisch durch drei Komponenten an: Strategy Sampling generiert einen kompakten strategischen Plan aus dem Ausgangszustand, Conditioned Action Execution führt Aktionen innerhalb dieses Rahmens durch, und Joint Training optimiert gleichzeitig die Strategiegenerierung und die Aktionsauswahl.

Was zeigen die Benchmarks?

Auf dem ALFWorld-Benchmark (textbasierte Haushaltsaufgaben) erreicht StraTA eine Erfolgsquote von 93,1 %. Der WebShop-Benchmark (simuliertes Online-Shopping) ergibt 84,2 %, SciWorld (wissenschaftliche Experimente) kommt auf 63,5 % Gesamtscore. Die Autoren betonen, dass die SciWorld-Ergebnisse „geschlossene Frontier-Modelle übertreffen” — was für einen offenen RL-Ansatz selten ist.

Warum ist Trajektorienabstraktion wichtig?

Explizites Trajectory-Level-Planning adressiert zwei grundlegende Schwächen reaktiver LLM-Agenten: eingeschränkte Explorationsfähigkeit und schwache Kreditvergabe über lange Entscheidungssequenzen. Statt dass das Modell im Aktionsraum „umherwandert”, verankert die Strategie es in einem kohärenten Plan. Zusätzliche Mechanismen für diverse Strategieerkundung und kritische Selbstevaluation erhöhen die Robustheit weiter. Für die Entwicklung agentischer Systeme legt StraTA nahe, dass hierarchische Dekomposition nicht nur eine architektonische Verbesserung ist, sondern die Grundlage effizienten RL-Lernens bildet.

Häufig gestellte Fragen

Was ist GRPO?

GRPO (Group Relative Policy Optimization) ist ein RL-Algorithmus, der die Policy durch Vergleich von Stichprobengruppen innerhalb desselben Batches optimiert, ohne ein separates Value-Modell zu benötigen. Die hierarchische Variante in StraTA wendet GRPO auf zwei Ebenen an — Strategie und Aktion.

Welches Problem löst StraTA?

Klassische LLM-Agenten handeln reaktiv — sie wählen die nächste Aktion ohne Plan. Das erschwert die Kreditvergabe über lange Entscheidungssequenzen. StraTA führt eine Abstraktionsschicht ein: Das Modell generiert zunächst einen strategischen Plan und führt dann Schritte innerhalb dieses Plans aus.

Welche Benchmarks wurden verwendet?

Das Team evaluierte das Framework auf drei Standards: ALFWorld (textbasierte Haushaltsaufgaben), WebShop (Online-Shopping) und SciWorld (wissenschaftliche Experimente). Erzielte Ergebnisse: 93,1 %, 84,2 % und 63,5 %, wobei das SciWorld-Ergebnis geschlossene Frontier-Modelle übertrifft.

arXiv:2605.06642: StraTA — agentisches RL mit hierarchischem GRPO erreicht 93,1 % auf ALFWorld

Wie funktioniert hierarchisches GRPO?

Was zeigen die Benchmarks?

Warum ist Trajektorienabstraktion wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten