arXiv:2605.15040 Orchard: open-source agentic framework postiže 67,5 % na SWE-bench Verified s tri specijalizirane recipe
Orchard je novi open-source agentic modeling framework objavljen 14. svibnja 2026. na arXivu (Baolin Peng, Wenlin Yao i 12 koautora). Framework kombinira lightweight environment layer s tri specijalizirane training recipe-a — SWE (software engineering), GUI (vision-language) i Claw (personal assistants). Orchard-SWE varijanta postiže 67,5 % na SWE-bench Verified nakon RL treninga, što ga čini state-of-the-art open-source rješenjem za coding agente.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Baolin Peng, Wenlin Yao i 12 koautora objavili su 14. svibnja 2026. na arXivu Orchard — open-source framework za skalabilan agentic modeling. Rad cilja prazninu u open-source infrastrukturi: dok closed-source agenti dominiraju benchmarks, open community treba kvalitetan stack koji omogućuje training, ne samo orchestraciju.
Što Orchard arhitektura nudi?
Framework se sastoji od tri komponente:
- Orchard Env — lightweight environment layer koji upravlja sandbox lifecycle-om kroz različite task tipove. Koristi “reusable primitives” umjesto teške orkestracije.
- Tri specijalizirane recipe — SWE (software engineering tasks), GUI (vision-language interfaces), Claw (personal assistant scenariji). Svaka recipe je optimizirana za svoj task tip.
- Training inovacije — Credit-assignment SFT (učenje iz incomplete trajectory-a) i Balanced Adaptive Rollout (novi RL algoritam za agent training).
Pristup je arhitektonski različit od LangChain/CrewAI tradicije: umjesto fokusa na workflow management (kako agent poziva alate i upravlja state-om), Orchard daje scalable agent training kao primarnu funkciju.
Što SWE-bench 67,5 % rezultat konkretno znači?
Orchard-SWE varijanta postiže 67,5 % na SWE-bench Verified nakon RL treninga. Brojka je značajna jer SWE-bench Verified je curated subset SWE-bench-a koji eliminira problematične test slučajeve — što je strogi benchmark za realne coding tasks. Open-source modeli rijetko dostižu 60+ % na SWE-bench Verified bez closed-source frontier modela na backendu; Orchard-SWE postiže to s open-source training stack-om i open-weight modelom.
Kako tri recipe paralelno funkcioniraju?
SWE recipe specijalizira agente za softverski engineering: čita kodne baze, piše PR-ove, koristi shell alate, debugira. GUI recipe trenira vision-language agente koji djeluju u browser/desktop sučeljima — klika, scrolla, čita screenshote, navigira aplikacije. Claw recipe cilja personal assistant tasks: file management, scheduling, multi-step korisničke namjere.
Multi-domain pristup pozicionira Orchard kao alternativu vendor-specific stack-ovima (Anthropic Computer Use, OpenAI Codex CLI) — jedan framework, tri domena, open-source.
Položaj u open-source agent ekosustavu
Najava se uklapa u tjedan dramatičnih agentic releasa: LangChain Labs (14.5., applied research program), GitHub Copilot App Technical Preview (14.5.), IBM Forward Deployed Units (14.5.). Orchard je academic research counterweight — daje community open-source temelj koji nije vendor-controlled. Trening recipe-i i Orchard-SWE weights bit će vjerojatno otvoreni — što bi otvorilo put da je open-source community u sljedećih nekoliko mjeseci dohvati closed-source agentne benchmarke.
Česta pitanja
- Što razlikuje Orchard od LangChain ili CrewAI?
- Klasični orchestracijski framework-ovi (LangChain, CrewAI) fokusiraju se na workflow management — kako agent pozove alate i upravlja state-om; Orchard daje naglasak na scalable agent training s actual model optimizacijom umjesto samo workflow orchestracijom.
- Koja je arhitektura Orchard frameworka?
- Tri komponente: Orchard Env (sandbox lifecycle management kroz različite task tipove), tri specijalizirane recipe (SWE, GUI, Claw), i training inovacije — Credit-assignment SFT za učenje iz incomplete trajectory-a i Balanced Adaptive Rollout za RL.