WORC: jačanje slabih agenata u multi-agent sustavima

WORC (Weak-Link Optimization for Reasoning and Collaboration) je novi okvir koji umjesto optimizacije jakih agenata identificira i jača slabe karike u multi-agent LLM sustavima. Kroz meta-learning i swarm intelligence pronalazi podbacivače, a zatim im alocira dodatne resurse za rezoniranje. Rezultat: 82.2 % prosječna točnost na reasoning benchmarkima i bolja stabilnost kroz arhitekture.

Koji problem WORC rješava?

Multi-agent LLM sustavi — gdje više agenata surađuje na zajedničkom zadatku — postaju standard za složene probleme poput reasoninga, istraživanja ili kodiranja. Ali pate od dobro poznate slabosti: greške se propagiraju. Ako jedan agent u lancu pogriješi, kasniji agenti grade na toj grešci i finalni rezultat puca.

Dosadašnja istraživačka linija bila je: “podigni sve agente”. Bolji modeli, bolji prompti, više examples u kontekstu — sve kako bi se prosječna točnost povećala. Ali autori Haoyu Bian i kolege u arXiv preprintu od 17. travnja 2026. tvrde da je to neoptimalno.

Što WORC radi drugačije?

Weak-link Optimization for Reasoning and Collaboration (WORC) slijedi dvostupanjski pristup:

1. Identifikacija. Meta-learner promatra performance svakog agenta na podzadacima i predviđa vjerojatnost da će podbaciti u sljedećem koraku. Kombinira meta-learning signale sa swarm intelligence tehnikama — agenti se međusobno procjenjuju, slično kako se u PSO (particle swarm optimization) lideri identificiraju kroz poziciju u prostoru rješenja.

2. Alokacija resursa. Kad su slabe karike identificirane, sustav im alocira više compute resursa: više rezoniranja (chain-of-thought iteracija), više demonstration primjera, duži kontekst, ponekad potpuno drugi model kao backup. Jake agente ne dira — oni već rade dobro i dodatni resursi bi imali dijelni efekt.

Kakvi su rezultati?

Prema abstractu, WORC postiže 82.2 % prosječnu točnost na reasoning benchmarkima — ne eksplicitno naveden koji, ali kontekst sugerira standardne multi-step reasoning setove poput MATH, GSM8K ili BBH variants.

Važnije: okvir poboljšava stabilnost framework-a. To je ključno u praksi — ne samo da bolje prolazi, nego pada rjeđe i konzistentnije. Također pokazuje cross-architecture generalizaciju: radi i kad se multi-agent sustav sastoji od heterogenih modela (Claude + GPT + open-source), ne samo kad su svi isti.

Zašto je to važno za multi-agent arhitekture?

Dva su strukturna zaključka:

1. Ne-uniformna alokacija je pravilo. U realnim multi-agent sustavima resursi trebaju ići tamo gdje je bottleneck — a bottleneck nije statičan, mijenja se po zadatku. WORC daje mehanizam za dinamičko pomicanje resursa.

2. Meta-learning kao koordinacijski sloj. Umjesto centralnog orkestratora koji ručno procjenjuje agente, WORC koristi nauceni meta-learner koji se prilagođava. To je skalabilnije i manje ovisi o ručnom tuningu.

Implikacije za graditelje agentskih sustava

Za timove koji grade Multi-Agent sisteme (recimo CrewAI, AutoGen, LangGraph), poruka je praktična: nemoj optimizirati sve agente jednako. Projektiraj instrumentaciju koja mjeri per-agent pouzdanost, identificiraj koje karike najčešće kvare pipeline, i alociraj dodatne resurse selektivno. To može uključivati i hybrid pristup — slab agent dobiva jači model kao “second opinion” samo kad meta-learner procijeni rizik.

Rad je preprint bez code release-a u trenutku pisanja, ali core ideja je arhitektonska i primjenjiva na postojeće orchestration framework-e. Timovi koji imaju telemetriju po agentu već imaju polovicu infrastrukture — fale im meta-learner komponenta i alokacijski policy.

Česta pitanja

Što točno znači 'slaba karika' u multi-agent sustavu?

Agent čija greška najvjerojatnije propagira kroz pipeline i kvari zajednički rezultat. WORC ga identificira meta-learningom — promatra performance svakog agenta na podzadacima i uči predvidjeti koji će najvjerojatnije podbaciti u sljedećem koraku. Nije nužno najlošiji u apsolutnom smislu, nego onaj čija greška ima najveći utjecaj.

Zašto jačanje slabih agenata umjesto poboljšanja jakih?

Zato što u sekvencijalnoj kolaboraciji ukupna pouzdanost nije prosjek — ona je limitirana najslabijom karikom. Dva jaka i jedan slab agent daju slabe rezultate. Autori tvrde da je zato efikasnije alocirati dodatne compute resurse slabom agentu (više razmišljanja, više primjera) nego dalje poboljšavati jake.

Što znači 'cross-architecture generalizacija'?

Da pristup radi i kad se multi-agent sustav sastoji od različitih modela (npr. Claude + GPT + open-source). WORC ne pretpostavlja da su svi agenti iste arhitekture — meta-learner uči identificirati slabe karike neovisno o tome koja ih arhitektura pokreće.

WORC: jačanje najslabijih agenata u multi-agent sustavima donosi 82.2 % točnost na reasoning benchmarkima