arXiv:2605.14968 GraphFlow: clinical pilot 97,08 % completion rate kroz formally verifiable visual workflows
GraphFlow je novi visual workflow system za reliable agentic AI objavljen 15. svibnja 2026. na arXivu autora Drewry H. Morris V, Luis Valles i Reza Hosseini Ghomi iz MedFlow Inc. Sustav adresira compounding error problem (10-step process s 90 % per-step reliability uspijeva samo 35 %) kroz formally verifiable diagram-as-specification pristup. Godinu dana klinički pilot kroz tri sites izveo 8.728 workflow runova s 97,08 % completion rate kroz early prototype.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Drewry H. Morris V, Luis Valles i Reza Hosseini Ghomi iz MedFlow Inc. objavili su 15. svibnja 2026. na arXivu paper koji predstavlja konkretno produkcijsko rješenje za jedan od najpoznatijih problema u agentic AI sustavima — compounding error koji se eksponencijalno akumulira kroz multi-step workflowove.
Što compounding error problem konkretno znači?
Autori daju jasan matematički primjer: “a ten-step process with 90 % per-step reliability completes successfully only 35 % of the time”. Formula je jednostavna — 0.9^10 = 34.87 %. Problem se akumulira eksponencijalno kako se workflow proširuje:
- 5-step proces: 0.9^5 = 59 % reliability
- 10-step proces: 0.9^10 = 35 %
- 20-step proces: 0.9^20 = 12 %
Za mission-critical aplikacije (medicina, financije, sigurnost) ovo je neprihvatljivo. Pojedinačni LLM call s 90 % reliability je impressive na izoliranoj benchmark-i, ali u stvarnom workflow-u dovoljan da uništi sustav.
Što GraphFlow konkretno verificira?
GraphFlow tretira workflow diagrame kao executable specification. Pristup ima nekoliko ključnih elemenata:
- Compile-time verification ograničene klase diagrama — workflow se mora proof-check-irati prije nego postane runnable
- Proof-checked artifacts — svaki workflow submitiran u shared library mora proći formal verification
- Eksplicitne ugovore — preconditions (što treba biti istinito prije execution), postconditions (što treba biti istinito nakon), composition obligations (kako se workflow ugrađuje u veće sustave)
Pristup je inspiriran formal methods iz software engineering tradicije (TLA+, Coq proofs), ali aplicirano na visual workflow representation umjesto code spec-a.
Kako visual workflow representation funkcionira?
Diagrami služe kao single authoritative definition koji pokriva:
- Data scope — koje podatke workflow obrađuje
- Execution semantics — redoslijed, paralelizam, error handling
- Monitoring — gdje su observability checkpoints
Swimlanes čine “trust boundaries explicit” — eksplicitno razdvajaju verified logic od external systems, human judgment, i AI decisions. Pristup omogućuje da reviewer odmah vidi gdje formal verification garancija prestaje i gdje sustav ovisi o external probabilistic factors.
Što clinical pilot demonstrira?
Godinu dana clinical pilot kroz tri sites izveo je 8.728 workflow runova s 97,08 % completion rate. Brojka je dramatic improvement nad 35 % iz baseline-a — približno 3× bolji success rate za isti type long-horizon workflow.
Observed failures bili su “localized primarily to external integrations”, ne u core workflow logic. To znači da kad GraphFlow padne, padne na predvidljivom mjestu — boundary između verified system i external world. To je radikalno bolja debugging proposition od typical agentic system gdje failure može biti anywhere u stack-u.
Po čemu se GraphFlow razlikuje od typical agent framework-a?
Klasični agentic sustavi (LangChain, AutoGen, Anthropic Computer Use) plan at inference time — agent dinamički odlučuje sljedeći korak na temelju trenutnog konteksta. Pristup je flexible ali “sensitive to prompt variation and difficult to audit”. Mali change u promptu može potpuno promijeniti behavior.
GraphFlow je suprotno: durable execution s append-only event logging i runtime contract enforcement. Workflow je fiksiran prije execution-a, verification se događa na compile time, runtime samo izvršava i provjerava da svi ugovori prolaze. Pristup podržava replay i audit trails koji su kritični za regulatorne aplikacije.
Što ovo znači za enterprise agentic AI?
GraphFlow popunjava prazninu koja je dramatic za medicinske, financijske i pravne use case-ove gdje compliance regimes traže auditibilan, deterministički workflow. MedFlow Inc. pozicionira sebe kao vendor-a koji adresira tu prazninu kroz formal verification approach — radikalno različit pristup od mainstream LangChain ili CrewAI stack-a.
Pristup je komplement nedavnim safety/reliability paper-ima: Microsoft Research AI Delegation Reliability (15.5., 19-34 % degradacija), arXiv History Anchors (13.5., 91-98 % unsafe shift), arXiv Sycophantic Consensus (15.5., alignment). Svi dijele zaključak: trenutni RLHF-based pristup nije dovoljan za mission-critical workloadove. Formal verification je jedna od malo solucija koja daje hard guarantees.
Česta pitanja
- Što GraphFlow konkretno verificira?
- GraphFlow tretira workflow diagrame kao executable specification i koristi compile-time verification na ograničenoj klasi diagrama; svaki workflow se submitira kao proof-checked artifact prije pridruživanja shared library, s eksplicitnim contracts (preconditions, postconditions, composition obligations).
- Što compounding error problem predstavlja?
- Ako svaki korak agentic procesa ima 90 % reliability, deset-koračni proces uspijeva uspješno samo u 0.9^10 = 35 % slučajeva; problem se eksponencijalno akumulira u long-horizon agent workflowima i kritičan je za mission-critical aplikacije gdje failures imaju značajne posljedice.