arXiv:2605.15040 Orchard: Open-Source-Agentic-Framework erreicht 67,5 % auf SWE-bench Verified mit drei spezialisierten Rezepten
Orchard ist ein neues Open-Source-Agentic-Modeling-Framework, das am 14. Mai 2026 auf arXiv veröffentlicht wurde (Baolin Peng, Wenlin Yao und 12 Koautoren). Das Framework kombiniert eine leichtgewichtige Umgebungsschicht mit drei spezialisierten Trainings-Rezepten — SWE (Software Engineering), GUI (Vision-Language) und Claw (persönliche Assistenten). Die Orchard-SWE-Variante erreicht 67,5 % auf SWE-bench Verified nach RL-Training und ist damit die State-of-the-Art-Open-Source-Lösung für Coding-Agenten.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Baolin Peng, Wenlin Yao und 12 Koautoren veröffentlichten am 14. Mai 2026 auf arXiv Orchard — ein Open-Source-Framework für skalierbares Agentic Modeling. Die Arbeit adressiert eine Lücke in der Open-Source-Infrastruktur: Während Closed-Source-Agenten Benchmarks dominieren, benötigt die Open-Community einen hochwertigen Stack, der Training ermöglicht, nicht nur Orchestrierung.
Was bietet die Orchard-Architektur?
Das Framework besteht aus drei Komponenten:
- Orchard Env — eine leichtgewichtige Umgebungsschicht, die den Sandbox-Lifecycle über verschiedene Aufgabentypen verwaltet. Verwendet „wiederverwendbare Primitiven” statt schwerer Orchestrierung.
- Drei spezialisierte Rezepte — SWE (Software-Engineering-Aufgaben), GUI (Vision-Language-Interfaces), Claw (persönliche Assistenten-Szenarien). Jedes Rezept ist für seinen Aufgabentyp optimiert.
- Trainings-Innovationen — Credit-Assignment-SFT (Lernen aus unvollständigen Trajektorien) und Balanced Adaptive Rollout (ein neuer RL-Algorithmus für Agenten-Training).
Der Ansatz unterscheidet sich architektonisch von der LangChain/CrewAI-Tradition: Statt des Fokus auf Workflow-Management (wie ein Agent Werkzeuge aufruft und den Zustand verwaltet) stellt Orchard skalierbares Agenten-Training als Primärfunktion in den Vordergrund.
Was bedeutet das SWE-bench-Verified-Ergebnis von 67,5 % konkret?
Die Orchard-SWE-Variante erreicht 67,5 % auf SWE-bench Verified nach RL-Training. Die Zahl ist bedeutsam, da SWE-bench Verified ein kuratiertes Subset von SWE-bench ist, das problematische Testfälle eliminiert — was ihn zu einem strengen Benchmark für reale Coding-Aufgaben macht. Open-Source-Modelle erreichen selten 60 %+ auf SWE-bench Verified ohne Closed-Source-Frontier-Modelle im Backend; Orchard-SWE erreicht dies mit einem Open-Source-Trainings-Stack und Open-Weight-Modell.
Wie funktionieren die drei Rezepte parallel?
Das SWE-Rezept spezialisiert Agenten für Software Engineering: Codebasen lesen, PRs schreiben, Shell-Werkzeuge verwenden, debuggen. Das GUI-Rezept trainiert Vision-Language-Agenten, die in Browser- und Desktop-Oberflächen agieren — klicken, scrollen, Screenshots lesen, Anwendungen navigieren. Das Claw-Rezept zielt auf persönliche Assistenten-Aufgaben ab: Dateiverwaltung, Planung, mehrstufige Benutzerabsichten.
Der Multi-Domain-Ansatz positioniert Orchard als Alternative zu herstellerspezifischen Stacks (Anthropic Computer Use, OpenAI Codex CLI) — ein Framework, drei Domänen, Open-Source.
Position im Open-Source-Agenten-Ökosystem
Die Ankündigung fügt sich in eine Woche dramatischer agentischer Releases ein: LangChain Labs (14. Mai, Applied-Research-Programm), GitHub Copilot App Technical Preview (14. Mai), IBM Forward Deployed Units (14. Mai). Orchard ist das akademische Forschungsgegengewicht — es gibt der Community ein Open-Source-Fundament, das nicht vom Anbieter kontrolliert wird. Die Trainings-Rezepte und Orchard-SWE-Gewichte werden voraussichtlich öffentlich gemacht — was der Open-Source-Community in den nächsten Monaten den Weg ebnen könnte, Closed-Source-Agenten-Benchmarks einzuholen.
Häufig gestellte Fragen
- Was unterscheidet Orchard von LangChain oder CrewAI?
- Klassische Orchestrierungs-Frameworks (LangChain, CrewAI) konzentrieren sich auf das Workflow-Management — wie ein Agent Werkzeuge aufruft und den Zustand verwaltet; Orchard legt den Schwerpunkt auf skalierbares Agenten-Training mit tatsächlicher Modelloptimierung statt nur auf Workflow-Orchestrierung.
- Was ist die Architektur des Orchard-Frameworks?
- Drei Komponenten: Orchard Env (Sandbox-Lifecycle-Management über verschiedene Aufgabentypen), drei spezialisierte Rezepte (SWE, GUI, Claw) sowie Trainings-Innovationen — Credit-Assignment-SFT zum Lernen aus unvollständigen Trajektorien und Balanced Adaptive Rollout für RL.
Verwandte Nachrichten
Kedro: Version 1.2.0 bringt @experimental-Dekorator und LangGraph Agentic Starter für GenAI-Pipelines
Stability AI: Stable Audio 3.0 mit Open-Weight-Modellen und 6-Minuten-Generierung
LangChain: Der Agent, der Agenten repariert — wie LangSmith Engine entwickelt wurde