🟢 📦 Open Source Objavljeno: · 3 min čitanja ·

arXiv:2605.14968 GraphFlow: clinical pilot 97,08 % completion rate kroz formally verifiable visual workflows

arXiv:2605.14968 ↗

Editorial illustration: workflow dijagram s verification provjerama i contract anotacijama.

GraphFlow je novi visual workflow system za reliable agentic AI objavljen 15. svibnja 2026. na arXivu autora Drewry H. Morris V, Luis Valles i Reza Hosseini Ghomi iz MedFlow Inc. Sustav adresira compounding error problem (10-step process s 90 % per-step reliability uspijeva samo 35 %) kroz formally verifiable diagram-as-specification pristup. Godinu dana klinički pilot kroz tri sites izveo 8.728 workflow runova s 97,08 % completion rate kroz early prototype.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Drewry H. Morris V, Luis Valles i Reza Hosseini Ghomi iz MedFlow Inc. objavili su 15. svibnja 2026. na arXivu paper koji predstavlja konkretno produkcijsko rješenje za jedan od najpoznatijih problema u agentic AI sustavima — compounding error koji se eksponencijalno akumulira kroz multi-step workflowove.

Što compounding error problem konkretno znači?

Autori daju jasan matematički primjer: “a ten-step process with 90 % per-step reliability completes successfully only 35 % of the time”. Formula je jednostavna — 0.9^10 = 34.87 %. Problem se akumulira eksponencijalno kako se workflow proširuje:

  • 5-step proces: 0.9^5 = 59 % reliability
  • 10-step proces: 0.9^10 = 35 %
  • 20-step proces: 0.9^20 = 12 %

Za mission-critical aplikacije (medicina, financije, sigurnost) ovo je neprihvatljivo. Pojedinačni LLM call s 90 % reliability je impressive na izoliranoj benchmark-i, ali u stvarnom workflow-u dovoljan da uništi sustav.

Što GraphFlow konkretno verificira?

GraphFlow tretira workflow diagrame kao executable specification. Pristup ima nekoliko ključnih elemenata:

  • Compile-time verification ograničene klase diagrama — workflow se mora proof-check-irati prije nego postane runnable
  • Proof-checked artifacts — svaki workflow submitiran u shared library mora proći formal verification
  • Eksplicitne ugovore — preconditions (što treba biti istinito prije execution), postconditions (što treba biti istinito nakon), composition obligations (kako se workflow ugrađuje u veće sustave)

Pristup je inspiriran formal methods iz software engineering tradicije (TLA+, Coq proofs), ali aplicirano na visual workflow representation umjesto code spec-a.

Kako visual workflow representation funkcionira?

Diagrami služe kao single authoritative definition koji pokriva:

  • Data scope — koje podatke workflow obrađuje
  • Execution semantics — redoslijed, paralelizam, error handling
  • Monitoring — gdje su observability checkpoints

Swimlanes čine “trust boundaries explicit” — eksplicitno razdvajaju verified logic od external systems, human judgment, i AI decisions. Pristup omogućuje da reviewer odmah vidi gdje formal verification garancija prestaje i gdje sustav ovisi o external probabilistic factors.

Što clinical pilot demonstrira?

Godinu dana clinical pilot kroz tri sites izveo je 8.728 workflow runova s 97,08 % completion rate. Brojka je dramatic improvement nad 35 % iz baseline-a — približno 3× bolji success rate za isti type long-horizon workflow.

Observed failures bili su “localized primarily to external integrations”, ne u core workflow logic. To znači da kad GraphFlow padne, padne na predvidljivom mjestu — boundary između verified system i external world. To je radikalno bolja debugging proposition od typical agentic system gdje failure može biti anywhere u stack-u.

Po čemu se GraphFlow razlikuje od typical agent framework-a?

Klasični agentic sustavi (LangChain, AutoGen, Anthropic Computer Use) plan at inference time — agent dinamički odlučuje sljedeći korak na temelju trenutnog konteksta. Pristup je flexible ali “sensitive to prompt variation and difficult to audit”. Mali change u promptu može potpuno promijeniti behavior.

GraphFlow je suprotno: durable execution s append-only event logging i runtime contract enforcement. Workflow je fiksiran prije execution-a, verification se događa na compile time, runtime samo izvršava i provjerava da svi ugovori prolaze. Pristup podržava replay i audit trails koji su kritični za regulatorne aplikacije.

Što ovo znači za enterprise agentic AI?

GraphFlow popunjava prazninu koja je dramatic za medicinske, financijske i pravne use case-ove gdje compliance regimes traže auditibilan, deterministički workflow. MedFlow Inc. pozicionira sebe kao vendor-a koji adresira tu prazninu kroz formal verification approach — radikalno različit pristup od mainstream LangChain ili CrewAI stack-a.

Pristup je komplement nedavnim safety/reliability paper-ima: Microsoft Research AI Delegation Reliability (15.5., 19-34 % degradacija), arXiv History Anchors (13.5., 91-98 % unsafe shift), arXiv Sycophantic Consensus (15.5., alignment). Svi dijele zaključak: trenutni RLHF-based pristup nije dovoljan za mission-critical workloadove. Formal verification je jedna od malo solucija koja daje hard guarantees.

Česta pitanja

Što GraphFlow konkretno verificira?
GraphFlow tretira workflow diagrame kao executable specification i koristi compile-time verification na ograničenoj klasi diagrama; svaki workflow se submitira kao proof-checked artifact prije pridruživanja shared library, s eksplicitnim contracts (preconditions, postconditions, composition obligations).
Što compounding error problem predstavlja?
Ako svaki korak agentic procesa ima 90 % reliability, deset-koračni proces uspijeva uspješno samo u 0.9^10 = 35 % slučajeva; problem se eksponencijalno akumulira u long-horizon agent workflowima i kritičan je za mission-critical aplikacije gdje failures imaju značajne posljedice.