Što compounding error problem predstavlja?

Ako svaki korak agentic procesa ima 90 % reliability, deset-koračni proces uspijeva uspješno samo u 0.9^10 = 35 % slučajeva; problem se eksponencijalno akumulira u long-horizon agent workflowima i kritičan je za mission-critical aplikacije gdje failures imaju značajne posljedice.

arXiv GraphFlow: 97,08 % verifiable agentic workflows

Q: Što GraphFlow konkretno verificira?

GraphFlow tretira workflow diagrame kao executable specification i koristi compile-time verification na ograničenoj klasi diagrama; svaki workflow se submitira kao proof-checked artifact prije pridruživanja shared library, s eksplicitnim contracts (preconditions, postconditions, composition obligations).

GraphFlow je novi visual workflow system za reliable agentic AI objavljen 15. svibnja 2026. na arXivu autora Drewry H. Morris V, Luis Valles i Reza Hosseini Ghomi iz MedFlow Inc. Sustav adresira compounding error problem (10-step process s 90 % per-step reliability uspijeva samo 35 %) kroz formally verifiable diagram-as-specification pristup. Godinu dana klinički pilot kroz tri sites izveo 8.728 workflow runova s 97,08 % completion rate kroz early prototype.

Drewry H. Morris V, Luis Valles i Reza Hosseini Ghomi iz MedFlow Inc. objavili su 15. svibnja 2026. na arXivu paper koji predstavlja konkretno produkcijsko rješenje za jedan od najpoznatijih problema u agentic AI sustavima — compounding error koji se eksponencijalno akumulira kroz multi-step workflowove.

Što compounding error problem konkretno znači?

Autori daju jasan matematički primjer: “a ten-step process with 90 % per-step reliability completes successfully only 35 % of the time”. Formula je jednostavna — 0.9^10 = 34.87 %. Problem se akumulira eksponencijalno kako se workflow proširuje:

5-step proces: 0.9^5 = 59 % reliability
10-step proces: 0.9^10 = 35 %
20-step proces: 0.9^20 = 12 %

Za mission-critical aplikacije (medicina, financije, sigurnost) ovo je neprihvatljivo. Pojedinačni LLM call s 90 % reliability je impressive na izoliranoj benchmark-i, ali u stvarnom workflow-u dovoljan da uništi sustav.

Što GraphFlow konkretno verificira?

GraphFlow tretira workflow diagrame kao executable specification. Pristup ima nekoliko ključnih elemenata:

Compile-time verification ograničene klase diagrama — workflow se mora proof-check-irati prije nego postane runnable
Proof-checked artifacts — svaki workflow submitiran u shared library mora proći formal verification
Eksplicitne ugovore — preconditions (što treba biti istinito prije execution), postconditions (što treba biti istinito nakon), composition obligations (kako se workflow ugrađuje u veće sustave)

Pristup je inspiriran formal methods iz software engineering tradicije (TLA+, Coq proofs), ali aplicirano na visual workflow representation umjesto code spec-a.

Kako visual workflow representation funkcionira?

Diagrami služe kao single authoritative definition koji pokriva:

Data scope — koje podatke workflow obrađuje
Execution semantics — redoslijed, paralelizam, error handling
Monitoring — gdje su observability checkpoints

Swimlanes čine “trust boundaries explicit” — eksplicitno razdvajaju verified logic od external systems, human judgment, i AI decisions. Pristup omogućuje da reviewer odmah vidi gdje formal verification garancija prestaje i gdje sustav ovisi o external probabilistic factors.

Što clinical pilot demonstrira?

Godinu dana clinical pilot kroz tri sites izveo je 8.728 workflow runova s 97,08 % completion rate. Brojka je dramatic improvement nad 35 % iz baseline-a — približno 3× bolji success rate za isti type long-horizon workflow.

Observed failures bili su “localized primarily to external integrations”, ne u core workflow logic. To znači da kad GraphFlow padne, padne na predvidljivom mjestu — boundary između verified system i external world. To je radikalno bolja debugging proposition od typical agentic system gdje failure može biti anywhere u stack-u.

Po čemu se GraphFlow razlikuje od typical agent framework-a?

Klasični agentic sustavi (LangChain, AutoGen, Anthropic Computer Use) plan at inference time — agent dinamički odlučuje sljedeći korak na temelju trenutnog konteksta. Pristup je flexible ali “sensitive to prompt variation and difficult to audit”. Mali change u promptu može potpuno promijeniti behavior.

GraphFlow je suprotno: durable execution s append-only event logging i runtime contract enforcement. Workflow je fiksiran prije execution-a, verification se događa na compile time, runtime samo izvršava i provjerava da svi ugovori prolaze. Pristup podržava replay i audit trails koji su kritični za regulatorne aplikacije.

Što ovo znači za enterprise agentic AI?

GraphFlow popunjava prazninu koja je dramatic za medicinske, financijske i pravne use case-ove gdje compliance regimes traže auditibilan, deterministički workflow. MedFlow Inc. pozicionira sebe kao vendor-a koji adresira tu prazninu kroz formal verification approach — radikalno različit pristup od mainstream LangChain ili CrewAI stack-a.

Pristup je komplement nedavnim safety/reliability paper-ima: Microsoft Research AI Delegation Reliability (15.5., 19-34 % degradacija), arXiv History Anchors (13.5., 91-98 % unsafe shift), arXiv Sycophantic Consensus (15.5., alignment). Svi dijele zaključak: trenutni RLHF-based pristup nije dovoljan za mission-critical workloadove. Formal verification je jedna od malo solucija koja daje hard guarantees.

arXiv:2605.14968 GraphFlow: clinical pilot 97,08 % completion rate kroz formally verifiable visual workflows

Što compounding error problem konkretno znači?

Što GraphFlow konkretno verificira?

Kako visual workflow representation funkcionira?

Što clinical pilot demonstrira?

Po čemu se GraphFlow razlikuje od typical agent framework-a?

Što ovo znači za enterprise agentic AI?

Česta pitanja

Izvori

Povezane vijesti