WORC: jačanje najslabijih agenata u multi-agent sustavima donosi 82.2 % točnost na reasoning benchmarkima
Zašto je bitno
WORC (Weak-Link Optimization for Reasoning and Collaboration) je novi okvir koji umjesto optimizacije jakih agenata identificira i jača slabe karike u multi-agent LLM sustavima. Kroz meta-learning i swarm intelligence pronalazi podbacivače, a zatim im alocira dodatne resurse za rezoniranje. Rezultat: 82.2 % prosječna točnost na reasoning benchmarkima i bolja stabilnost kroz arhitekture.
Koji problem WORC rješava?
Multi-agent LLM sustavi — gdje više agenata surađuje na zajedničkom zadatku — postaju standard za složene probleme poput reasoninga, istraživanja ili kodiranja. Ali pate od dobro poznate slabosti: greške se propagiraju. Ako jedan agent u lancu pogriješi, kasniji agenti grade na toj grešci i finalni rezultat puca.
Dosadašnja istraživačka linija bila je: “podigni sve agente”. Bolji modeli, bolji prompti, više examples u kontekstu — sve kako bi se prosječna točnost povećala. Ali autori Haoyu Bian i kolege u arXiv preprintu od 17. travnja 2026. tvrde da je to neoptimalno.
Što WORC radi drugačije?
Weak-link Optimization for Reasoning and Collaboration (WORC) slijedi dvostupanjski pristup:
1. Identifikacija. Meta-learner promatra performance svakog agenta na podzadacima i predviđa vjerojatnost da će podbaciti u sljedećem koraku. Kombinira meta-learning signale sa swarm intelligence tehnikama — agenti se međusobno procjenjuju, slično kako se u PSO (particle swarm optimization) lideri identificiraju kroz poziciju u prostoru rješenja.
2. Alokacija resursa. Kad su slabe karike identificirane, sustav im alocira više compute resursa: više rezoniranja (chain-of-thought iteracija), više demonstration primjera, duži kontekst, ponekad potpuno drugi model kao backup. Jake agente ne dira — oni već rade dobro i dodatni resursi bi imali dijelni efekt.
Kakvi su rezultati?
Prema abstractu, WORC postiže 82.2 % prosječnu točnost na reasoning benchmarkima — ne eksplicitno naveden koji, ali kontekst sugerira standardne multi-step reasoning setove poput MATH, GSM8K ili BBH variants.
Važnije: okvir poboljšava stabilnost framework-a. To je ključno u praksi — ne samo da bolje prolazi, nego pada rjeđe i konzistentnije. Također pokazuje cross-architecture generalizaciju: radi i kad se multi-agent sustav sastoji od heterogenih modela (Claude + GPT + open-source), ne samo kad su svi isti.
Zašto je to važno za multi-agent arhitekture?
Dva su strukturna zaključka:
1. Ne-uniformna alokacija je pravilo. U realnim multi-agent sustavima resursi trebaju ići tamo gdje je bottleneck — a bottleneck nije statičan, mijenja se po zadatku. WORC daje mehanizam za dinamičko pomicanje resursa.
2. Meta-learning kao koordinacijski sloj. Umjesto centralnog orkestratora koji ručno procjenjuje agente, WORC koristi nauceni meta-learner koji se prilagođava. To je skalabilnije i manje ovisi o ručnom tuningu.
Implikacije za graditelje agentskih sustava
Za timove koji grade Multi-Agent sisteme (recimo CrewAI, AutoGen, LangGraph), poruka je praktična: nemoj optimizirati sve agente jednako. Projektiraj instrumentaciju koja mjeri per-agent pouzdanost, identificiraj koje karike najčešće kvare pipeline, i alociraj dodatne resurse selektivno. To može uključivati i hybrid pristup — slab agent dobiva jači model kao “second opinion” samo kad meta-learner procijeni rizik.
Rad je preprint bez code release-a u trenutku pisanja, ali core ideja je arhitektonska i primjenjiva na postojeće orchestration framework-e. Timovi koji imaju telemetriju po agentu već imaju polovicu infrastrukture — fale im meta-learner komponenta i alokacijski policy.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji