arXiv Orchard: 67,5 % SWE-bench Verified Open-Source

Orchard ist ein neues Open-Source-Agentic-Modeling-Framework, das am 14. Mai 2026 auf arXiv veröffentlicht wurde (Baolin Peng, Wenlin Yao und 12 Koautoren). Das Framework kombiniert eine leichtgewichtige Umgebungsschicht mit drei spezialisierten Trainings-Rezepten — SWE (Software Engineering), GUI (Vision-Language) und Claw (persönliche Assistenten). Die Orchard-SWE-Variante erreicht 67,5 % auf SWE-bench Verified nach RL-Training und ist damit die State-of-the-Art-Open-Source-Lösung für Coding-Agenten.

Baolin Peng, Wenlin Yao und 12 Koautoren veröffentlichten am 14. Mai 2026 auf arXiv Orchard — ein Open-Source-Framework für skalierbares Agentic Modeling. Die Arbeit adressiert eine Lücke in der Open-Source-Infrastruktur: Während Closed-Source-Agenten Benchmarks dominieren, benötigt die Open-Community einen hochwertigen Stack, der Training ermöglicht, nicht nur Orchestrierung.

Was bietet die Orchard-Architektur?

Das Framework besteht aus drei Komponenten:

Orchard Env — eine leichtgewichtige Umgebungsschicht, die den Sandbox-Lifecycle über verschiedene Aufgabentypen verwaltet. Verwendet „wiederverwendbare Primitiven” statt schwerer Orchestrierung.
Drei spezialisierte Rezepte — SWE (Software-Engineering-Aufgaben), GUI (Vision-Language-Interfaces), Claw (persönliche Assistenten-Szenarien). Jedes Rezept ist für seinen Aufgabentyp optimiert.
Trainings-Innovationen — Credit-Assignment-SFT (Lernen aus unvollständigen Trajektorien) und Balanced Adaptive Rollout (ein neuer RL-Algorithmus für Agenten-Training).

Der Ansatz unterscheidet sich architektonisch von der LangChain/CrewAI-Tradition: Statt des Fokus auf Workflow-Management (wie ein Agent Werkzeuge aufruft und den Zustand verwaltet) stellt Orchard skalierbares Agenten-Training als Primärfunktion in den Vordergrund.

Was bedeutet das SWE-bench-Verified-Ergebnis von 67,5 % konkret?

Die Orchard-SWE-Variante erreicht 67,5 % auf SWE-bench Verified nach RL-Training. Die Zahl ist bedeutsam, da SWE-bench Verified ein kuratiertes Subset von SWE-bench ist, das problematische Testfälle eliminiert — was ihn zu einem strengen Benchmark für reale Coding-Aufgaben macht. Open-Source-Modelle erreichen selten 60 %+ auf SWE-bench Verified ohne Closed-Source-Frontier-Modelle im Backend; Orchard-SWE erreicht dies mit einem Open-Source-Trainings-Stack und Open-Weight-Modell.

Wie funktionieren die drei Rezepte parallel?

Das SWE-Rezept spezialisiert Agenten für Software Engineering: Codebasen lesen, PRs schreiben, Shell-Werkzeuge verwenden, debuggen. Das GUI-Rezept trainiert Vision-Language-Agenten, die in Browser- und Desktop-Oberflächen agieren — klicken, scrollen, Screenshots lesen, Anwendungen navigieren. Das Claw-Rezept zielt auf persönliche Assistenten-Aufgaben ab: Dateiverwaltung, Planung, mehrstufige Benutzerabsichten.

Der Multi-Domain-Ansatz positioniert Orchard als Alternative zu herstellerspezifischen Stacks (Anthropic Computer Use, OpenAI Codex CLI) — ein Framework, drei Domänen, Open-Source.

Position im Open-Source-Agenten-Ökosystem

Die Ankündigung fügt sich in eine Woche dramatischer agentischer Releases ein: LangChain Labs (14. Mai, Applied-Research-Programm), GitHub Copilot App Technical Preview (14. Mai), IBM Forward Deployed Units (14. Mai). Orchard ist das akademische Forschungsgegengewicht — es gibt der Community ein Open-Source-Fundament, das nicht vom Anbieter kontrolliert wird. Die Trainings-Rezepte und Orchard-SWE-Gewichte werden voraussichtlich öffentlich gemacht — was der Open-Source-Community in den nächsten Monaten den Weg ebnen könnte, Closed-Source-Agenten-Benchmarks einzuholen.

Häufig gestellte Fragen

Was unterscheidet Orchard von LangChain oder CrewAI?

Klassische Orchestrierungs-Frameworks (LangChain, CrewAI) konzentrieren sich auf das Workflow-Management — wie ein Agent Werkzeuge aufruft und den Zustand verwaltet; Orchard legt den Schwerpunkt auf skalierbares Agenten-Training mit tatsächlicher Modelloptimierung statt nur auf Workflow-Orchestrierung.

Was ist die Architektur des Orchard-Frameworks?

Drei Komponenten: Orchard Env (Sandbox-Lifecycle-Management über verschiedene Aufgabentypen), drei spezialisierte Rezepte (SWE, GUI, Claw) sowie Trainings-Innovationen — Credit-Assignment-SFT zum Lernen aus unvollständigen Trajektorien und Balanced Adaptive Rollout für RL.

arXiv:2605.15040 Orchard: Open-Source-Agentic-Framework erreicht 67,5 % auf SWE-bench Verified mit drei spezialisierten Rezepten

Was bietet die Orchard-Architektur?

Was bedeutet das SWE-bench-Verified-Ergebnis von 67,5 % konkret?

Wie funktionieren die drei Rezepte parallel?

Position im Open-Source-Agenten-Ökosystem

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten