HuggingFace veröffentlicht Ecom-RLVE-Gym: 8 Umgebungen und ein 12-achsiges Curriculum für das Training von E-Commerce-Agenten mit Reinforcement Learning

Das Owlgebra-KI-Team veröffentlichte am 16. April 2026 im HuggingFace-Blog das Projekt Ecom-RLVE-Gym – ein offenes Framework mit 8 verifizierbaren Umgebungen für konversationelle E-Commerce-Agenten und algorithmischer Belohnung anstelle eines LLM-Richters. Das System verwendet einen Katalog mit 2 Millionen Produkten, das Qwen-3-8B-Modell und ein adaptives 12-achsiges Curriculum, das die Aufgabenschwierigkeit für den Agenten schrittweise erhöht – als Antwort auf die Grenzen des Supervised Fine-Tuning bei komplexen mehrstufigen Workflows.

Das Owlgebra-KI-Team veröffentlichte am 16. April 2026 im HuggingFace-Blog das Projekt Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents. Die Arbeit entstand beim PyTorch OpenEnv Hackathon im Cerebral Valley und wird von Rahul Bajaj, Jaya Nupur, Anuj Garg, Ben Burtenshaw und sieben weiteren Mitwirkenden unterzeichnet.

Was ist das Problem, das gelöst wird?

Die Autoren gehen von der Beobachtung aus, dass Sprachflüssigkeit keine Aufgabenerfolgsgarantie darstellt – ein Agent kann ein überzeugendes Gespräch führen und trotzdem das Kaufziel verfehlen. Supervised Fine-Tuning (SFT) kann die enorme Kombination aus Einschränkungen und Mehrschrittinteraktionen im realen E-Commerce nicht abdecken: unterschiedliche Produktvarianten, nicht verfügbare Mengen, Klärungsanfragen, Rücksendungen, Shop-Richtlinien. Ihre Lösung ist RLVR – Reinforcement Learning with Verifiable Rewards – bei dem die Belohnung nicht durch die Bewertung eines LLM-Richters berechnet wird, sondern deterministisch gegen den erwarteten Warenkorbzustand geprüft wird.

Wie funktioniert Ecom-RLVE-Gym?

Der Gym enthält 8 verifizierbare Umgebungen: Produktentdeckung, Ersatz, Warenkorbzusammenstellung, Rücksendungen, Auftragsverfolgung, Richtlinienfragen, Paketplanung und Sitzungen mit mehreren Absichten. Die Schwierigkeit jedes Szenarios wird entlang von 12 unabhängigen Achsen gesteuert – Einschränkungen, Nutzerauslassungen, Katalog-Distraktoren, Bestandserschöpfung, Token-Budget, Eingangsrauschen, Kontextunterbrechungen, Suchtiefe, Bestellhistorie, Richtlinienkomplexität und weiteres. Das adaptive Curriculum wächst schrittweise (Schema C1 ⊂ C2 ⊂ C4 ⊂ C8), um Sättigung und Verhungern zu vermeiden.

Die Schlüsselinnovation ist die algorithmische Belohnungsverifikation. Anstelle eines LLM, das das Ergebnis bewertet, prüft das System den zusammengesetzten Schlüssel (product_id, variant_id, qty) – den tatsächlichen Warenkorbzustand gegenüber dem erwarteten. Die Belohnungsfunktion kombiniert F1-Metrik, Effizienz und eine Halluzinationsstrafe.

Technische Trainingsdetails

Das Training wurde auf dem Qwen-3-8B-Modell mit dem DAPO-Algorithmus mit G=8 Rollouts und einer Lernrate von 1e-5 durchgeführt. Der Nutzersimulator ist Qwen 3.5 (9,7B), der strategisch Teile von Anfragen auslässt, um den Agenten zur Stellung von Klärungsfragen zu zwingen. Der Katalog enthält 2 Millionen Produkte, die mit FAISS und Embeddings von Alibaba-NLP/gte-modernbert-base (768 Dimensionen) indiziert sind. Nach 300 Trainingsschritten berichten die Autoren von progressiven Fortschritten durch die Schwierigkeitsstufen – was die These bestätigt, dass die Skalierung von Umgebungen (und nicht nur von Modellen) messbare Verbesserungen auch bei spezialisierten Aufgaben bringt.

Alles ist öffentlich: Der Code befindet sich auf GitHub (owlgebra-ai/EcomRLVE-Gym), der Datensatz auf HuggingFace (owlgebra-ai/Amazebay-catalog-2M) und eine interaktive Demo steht zum Testen im Browser bereit. Die Arbeit ist derzeit der umfassendste offene Benchmark für das RL-Training konversationeller E-Commerce-Agenten.

Häufig gestellte Fragen

Was ist RLVR und warum wird es im E-Commerce benötigt?

RLVR (Reinforcement Learning with Verifiable Rewards) ist Reinforcement Learning, bei dem die Belohnung nicht auf der Bewertung eines LLM-Richters basiert, sondern auf einem deterministisch überprüfbaren Ergebnis – zum Beispiel, ob das Produkt, das der Agent in den Warenkorb gelegt hat, genau das ist, das der Nutzer sucht. Es wird benötigt, weil Supervised Fine-Tuning nicht auf die kombinatorische Anzahl von Einschränkungen und Mehrschrittinteraktionen skalieren kann, die im realen Einkauf bestehen.

Wie sind die Umgebungen in Ecom-RLVE-Gym aufgebaut?

Acht verifizierbare Szenarien: Produktentdeckung, Ersatz, Warenkorbzusammenstellung, Rücksendungen, Auftragsverfolgung, Richtlinienfragen, Paketplanung und Sitzungen mit mehreren Absichten. Die Schwierigkeit wird entlang von 12 unabhängigen Achsen gesteuert, wie Einschränkungen, Auslassungen, Distraktoren, ausgeschöpfte Bestände und Richtlinienkomplexität.

Sind Code und Datensatz öffentlich verfügbar?

Ja. Der Code ist auf GitHub unter dem Repository owlgebra-ai/EcomRLVE-Gym veröffentlicht, der Katalog mit 2,05 Millionen Produkten ist als Datensatz owlgebra-ai/Amazebay-catalog-2M verfügbar, und die Modelle sind Teil der WUFUS-Kollektion auf HuggingFace.

HuggingFace veröffentlicht Ecom-RLVE-Gym: 8 Umgebungen und ein 12-achsiges Curriculum für das Training von E-Commerce-Agenten mit Reinforcement Learning

Was ist das Problem, das gelöst wird?

Wie funktioniert Ecom-RLVE-Gym?

Technische Trainingsdetails

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten