Što znači kompilirati workflow u LLM težine?

Standardni agentic framework poput LangChaina drži workflow logiku u Python kodu koji orkestrira pozive većem LLM-u. Compiling pristup fine-tuna manji model na sintetičkim primjerima izvršavanja workflowa, tako da manji model jednim pozivom emulira cijeli flow.

Zašto je razlika u cijeni 100 puta?

Standardni agentic flow s 14-55 čvorova generira 14-55 pojedinačnih poziva većem frontier modelu. Compiled subterranean agent jednim pozivom manjeg modela proizvodi cijeli put — manje pozivnih tokena, jeftiniji model, znatno niža cijena po riješenom zadatku.

arXiv: Workflowi u LLM težine, 100× jeftinije

Q: Koje su tri barijere koje rad adresira?

Rad identificira da je dotad pristup kompilacije bio zaboravljen zbog tri prepreke: nedovoljno sintetičkih trening primjera, nedostatak strukturalnog signal-tracking-a između koraka, i nedostatak verifikacije korektnosti compiled modela — autori predstavljaju rješenja za sva tri problema.

Istraživači su pokazali da se kompleksni agentski workflowi mogu enkodirati direktno u težine manjeg fine-tuned modela umjesto u eksternu orkestraciju poput LangChaina ili LangGraph-a. Pristup postiže near-frontier kvalitetu uz 100 puta nižu cijenu inferencije na tri stvarna scenarija: travel booking, Zoom support i osiguranje, s workflowima od 14 do 55 čvorova.

ArXiv preprint objavljen 21. svibnja 2026. predstavlja metodu kompilacije agentskih workflowa direktno u težine manjeg fine-tuned modela, čime se postiže near-frontier kvaliteta uz 100 puta nižu cijenu inferencije nego u standardnom agentic frameworku poput LangChaina ili LangGraph-a. Autori su metodu validirali na tri stvarna proizvodna scenarija: travel booking sa 14 workflow čvorova, Zoom enterprise support s 28 čvorova, i osiguranje s 55 čvorova.

Kako kompilacija workflowa u težine zapravo radi?

Standardni agentic framework drži workflow logiku u Python kodu koji eksterno orkestrira pozive većem LLM-u (npr. GPT-5 ili Claude Opus 4.7). Svaki čvor workflowa generira jedan API poziv, što za 55-čvorni flow znači 55 nezavisnih poziva s pripadajućim latency i token troškom. Compiling pristup umjesto toga:

Generira sintetičke trening primjere izvršavanja workflowa pomoću frontier modela (npr. 5.000-20.000 traceova).
Fine-tuna manji model (npr. 8B-13B parametara) na tim primjerima koristeći structured-output objective.
Ugrađuje workflow logiku u težine — naučeni model jednim pozivom emulira cijeli flow uključujući granjanja, retry-jeve i tool-calls.

Rezultat je model koji autori nazivaju subterranean agent jer logika živi ispod površinskog API-ja, u težinama. Na travel booking scenariju jedan poziv subterranean agenta zamjenjuje 14 frontier-model poziva uz održanje 96,3 posto kvalitete originalnog LangChain workflowa.

Što znače brojke za travel, Zoom support i insurance scenarije?

Travel booking benchmark: original LangChain flow s 14 čvorova košta 0,18 USD po zadatku uz GPT-5; compiled subterranean agent košta 0,0018 USD po zadatku — točno 100 puta jeftinije, uz 96,3 posto retention kvalitete. Zoom enterprise support: 28 čvorova, original cijena 0,42 USD, compiled 0,0041 USD — 102× jeftinije, 94,1 posto retention. Insurance underwriting: 55 čvorova, original cijena 1,84 USD, compiled 0,019 USD — 96× jeftinije, 91,8 posto retention.

Razlika u kvaliteti dolazi od dva izvora: subterranean agent gubi pristup live tool calls (svaki tool poziv mora biti pre-cache-an u trening primjerima) i ne može dinamički eskalirati neobične edge cases na frontier model. Autori predlažu hybrid pristup gdje subterranean agent rješava 95 posto rutinskih zadataka, a frontier model preuzima samo zadatke koje subterranean označi nesigurnima — što daje 80-90× cost reduction uz potpunu retention kvalitete.

Koje tri barijere su prepreke za adopciju riješene?

Autori identificiraju da je pristup kompilacije postojao u istraživanju od 2023, ali nije ušao u produkciju zbog tri konkretne barijere. Prva: nedovoljno trening primjera za kompleksne workflowe — generiranje 20.000 traceova frontier modelom je do nedavno koštalo više nego ušteda od subterranean modela. Cijena frontier inferencije pala je dovoljno (Claude Haiku 4.5, Gemini 3 Flash, GPT-5 mini) da generiranje traceova sad košta 50-200 USD po workflow-u — što je amortizirano kroz dane proizvodne upotrebe.

Druga barijera: nedostatak strukturalnog signal-tracking-a između koraka u trening primjeru. Subterranean agent mora “naučiti” da odluka u koraku 7 ovisi o output-u koraka 3 — autori uvode explicit state-pointer tokene koji modeliraju tu ovisnost. Treća barijera: verifikacija korektnosti compiled modela. Rad predstavlja diff-based eval framework koji uspoređuje subterranean output sa zlatnim standardom na semantičkoj razini, ne samo string match.

Što ovo mijenja u agentic AI ekosustavu?

Implikacija je značajna: za rutinske enterprise workflowe (support tickets, booking, claim processing) kompilacija u manji model može preokrenuti ekonomiju AI agenata. Trenutno produkcijska implementacija LangChain/LangGraph agenta s GPT-5 backend-om može koštati 50.000-200.000 USD mjesečno za enterprise scale; 100× cost reduction dovodi tu cijenu na 500-2.000 USD što je u rangu tradicionalnih SaaS pretplata.

Frontier modeli ostaju ključni za generiranje sintetičkih trening primjera i za eskalaciju edge cases — ovo nije konkurencija frontier providerima nego komplement koji im premiješta dio inference workload-a u jeftinije manje modele.

arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu

Kako kompilacija workflowa u težine zapravo radi?

Što znače brojke za travel, Zoom support i insurance scenarije?

Koje tri barijere su prepreke za adopciju riješene?

Što ovo mijenja u agentic AI ekosustavu?

Česta pitanja

Izvori

Povezane vijesti