Studija ArXiv: in-context prompting nadmašuje LangGraph, CrewAI, Google ADK i OpenAI Agents SDK u proceduralnim zadacima
In-context prompting je arhitektonski pristup u kojem se cijeli proceduralni workflow ugrađuje izravno u system prompt umjesto orkestracije kroz framework. ArXiv studija na 200 razgovora po uvjetu pokazuje da takav pristup nadmašuje LangGraph, CrewAI, Google ADK i OpenAI Agents SDK u tri domene: rezerviranje putovanja, Zoom tehnička podrška i obrada osiguravajućih zahtjeva.
Tim Simon Dennis, Michael Diamond, Rivaan Patil, Kevin Shabahang i Hao Guo objavio je 30. travnja 2026. na ArXivu studiju s provokativnim naslovom: “In-Context Prompting Obsoletes Agent Orchestration for Procedural Tasks”. Tvrdnja koju brane je da napredne sposobnosti današnjih frontier modela čine vanjske orkestracijske okvire suvišnima u značajnoj klasi proceduralnih, multi-turn zadataka.
Što in-context prompting čini boljim od orkestracije?
In-context pristup ugrađuje cijeli proceduralni workflow — popis koraka, uvjete grananja, format izlaza, eskalaciju — izravno u system prompt jednog modela. Orkestracijski okviri (LangGraph, CrewAI, Google ADK, OpenAI Agents SDK) razdvajaju isti workflow u graf čvorova i prepuštaju model-pozive zasebnoj koordinacijskoj logici. Autori tvrde da frontier modeli sada imaju dovoljno “samoorkestracijske” sposobnosti da prate kompleksne procedure unutar jednog poziva, dok grafovsko prebacivanje konteksta uvodi gubitke koji povećavaju stopu neuspjeha.
Tri domene i konkretni rezultati
Eksperiment je proveden na tri domene: rezerviranje putovanja, Zoom tehnička podrška i obrada osiguravajućih zahtjeva — svaka s 200 razgovora po uvjetu i LLM-as-judge ocjenjivanjem na pet kriterija kvalitete. In-context baseline je postigao 4,53–5,00, dok je LangGraph kao najbliži orkestrator zaostao s 4,17–4,84. Stopa neuspjeha bila je još razlikovnija: in-context 11,5 %, 0,5 % i 5 % po domeni nasuprot orkestracije s 24 %, 9 % i 17 %.
Što to znači za izgradnju agenata
Zaključak studije ne kaže da su orkestracijski okviri univerzalno suvišni — oni i dalje imaju ulogu u zadacima koji zahtijevaju paralelne tijekove, vanjska memorija ili više nezavisnih agenta. Ali za strukturirane proceduralne zadatke s jasnim koracima ovaj rad sugerira da je arhitektonska jednostavnost — jedan dobro napisan system prompt — pouzdanija od grafa čvorova. Implikacija za 2026. agentni stack je da bi prvi korak u dizajnu agenta trebao biti pokušaj rješavanja problema kroz in-context prompt prije posezanja za frameworkom.
Česta pitanja
- Koji su frameworci uspoređeni?
- LangGraph, CrewAI, Google ADK i OpenAI Agents SDK uspoređeni su s in-context baseline-om koji ugrađuje workflow direktno u system prompt.
- Koliki je raspon rezultata?
- In-context pristup postiže 4,53–5,00 na skali 1–5, dok orkestracijski okviri ostaju u rasponu 4,17–4,84. Razlike u stopi neuspjeha su još veće: 11,5/0,5/5 % vs 24/9/17 % po domeni.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
WindowsWorld benchmark: vodeći računalni agenti padaju ispod 21% uspješnosti na zadacima koji obuhvaćaju više desktop aplikacija
GitHub Copilot u Visual Studio dobiva debugger agenta i cloud agent sesije iz IDE-a
ArXiv Odysseys: realistic web agents benchmark CMU-a otkriva da SOTA frontier modeli postižu 44.5% uspjeha i 1.15% Trajectory Efficiency na long-horizon zadacima