🟢 📦 Open Source Veröffentlicht: · 4 Min. Lesezeit ·

arXiv:2605.14968 GraphFlow: klinischer Pilot 97,08 % Abschlussrate durch formal verifizierbare visuelle Workflows

arXiv:2605.14968 ↗

Redaktionelle Illustration: Workflow-Diagramm mit Verifikationsprüfungen und Vertragsannotationen.

GraphFlow ist ein neues visuelles Workflow-System für zuverlässige agentische KI, das am 15. Mai 2026 auf arXiv von Drewry H. Morris V, Luis Valles und Reza Hosseini Ghomi von MedFlow Inc. veröffentlicht wurde. Das System adressiert das Compounding-Error-Problem (ein 10-schrittiger Prozess mit 90 % Schritt-Zuverlässigkeit gelingt nur in 35 % der Fälle) durch einen formal verifizierbaren Diagramm-als-Spezifikation-Ansatz. Ein einjähriger klinischer Pilot über drei Standorte führte 8.728 Workflow-Läufe mit einer Abschlussrate von 97,08 % durch einen frühen Prototyp durch.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Drewry H. Morris V, Luis Valles und Reza Hosseini Ghomi von MedFlow Inc. veröffentlichten am 15. Mai 2026 auf arXiv ein Paper, das eine konkrete Produktionslösung für eines der bekanntesten Probleme in agentischen KI-Systemen präsentiert — den Compounding Error, der sich exponentiell über mehrstufige Workflows akkumuliert.

Was bedeutet das Compounding-Error-Problem konkret?

Die Autoren liefern ein klares mathematisches Beispiel: „a ten-step process with 90 % per-step reliability completes successfully only 35 % of the time.“ Die Formel ist einfach — 0,9^10 = 34,87 %. Das Problem akkumuliert sich exponentiell, wenn der Workflow wächst:

  • 5-schrittiger Prozess: 0,9^5 = 59 % Zuverlässigkeit
  • 10-schrittiger Prozess: 0,9^10 = 35 %
  • 20-schrittiger Prozess: 0,9^20 = 12 %

Für geschäftskritische Anwendungen (Medizin, Finanzen, Sicherheit) ist dies inakzeptabel. Ein einzelner LLM-Aufruf mit 90 % Zuverlässigkeit ist auf einem isolierten Benchmark beeindruckend, in einem realen Workflow jedoch ausreichend, um das System zu ruinieren.

Was verifiziert GraphFlow konkret?

GraphFlow behandelt Workflow-Diagramme als ausführbare Spezifikation. Der Ansatz hat mehrere Schlüsselelemente:

  • Compile-Time-Verifikation einer beschränkten Klasse von Diagrammen — ein Workflow muss eine Prüfung bestehen, bevor er ausführbar wird
  • Geprüfte Artefakte — jeder in die gemeinsame Bibliothek eingereichte Workflow muss die formale Verifikation bestehen
  • Explizite Verträge — Vorbedingungen (was vor der Ausführung wahr sein muss), Nachbedingungen (was nach der Ausführung wahr sein muss), Kompositionsverpflichtungen (wie sich der Workflow in größere Systeme einfügt)

Der Ansatz ist von formalen Methoden aus der Software-Engineering-Tradition inspiriert (TLA+, Coq-Beweise), aber auf visuelle Workflow-Repräsentation statt Code-Spezifikationen angewendet.

Wie funktioniert die visuelle Workflow-Repräsentation?

Diagramme dienen als einzige maßgebliche Definition, die folgendes abdeckt:

  • Datenumfang — welche Daten der Workflow verarbeitet
  • Ausführungssemantik — Reihenfolge, Parallelismus, Fehlerbehandlung
  • Monitoring — wo Observability-Checkpoints liegen

Swimlanes machen „Vertrauensgrenzen explizit“ — sie trennen explizit verifizierte Logik von externen Systemen, menschlichem Urteil und KI-Entscheidungen. Der Ansatz ermöglicht es einem Prüfer, sofort zu sehen, wo die formale Verifikationsgarantie endet und wo das System auf externe probabilistische Faktoren angewiesen ist.

Was demonstriert der klinische Pilot?

Ein einjähriger klinischer Pilot über drei Standorte führte 8.728 Workflow-Läufe mit einer Abschlussrate von 97,08 % durch. Die Zahl ist eine dramatische Verbesserung gegenüber den 35 % aus dem Baseline — ungefähr 3× bessere Erfolgsrate für denselben Typ von Long-Horizon-Workflow.

Beobachtete Ausfälle waren „primär auf externe Integrationen beschränkt“, nicht in der Kern-Workflow-Logik. Das bedeutet: Wenn GraphFlow scheitert, scheitert es an einem vorhersehbaren Punkt — der Grenze zwischen dem verifizierten System und der Außenwelt. Das ist eine radikal bessere Debugging-Ausgangslage als bei einem typischen agentischen System, wo Ausfälle überall im Stack auftreten können.

Wie unterscheidet sich GraphFlow von einem typischen Agenten-Framework?

Klassische agentische Systeme (LangChain, AutoGen, Anthropic Computer Use) planen zur Inferenzzeit — der Agent entscheidet dynamisch den nächsten Schritt auf Basis des aktuellen Kontexts. Der Ansatz ist flexibel, aber „anfällig für Prompt-Variationen und schwer zu prüfen.“ Eine kleine Änderung im Prompt kann das Verhalten vollständig verändern.

GraphFlow ist das Gegenteil: dauerhafte Ausführung mit Nur-Anhängen-Ereignisprotokollierung und Laufzeit-Vertragserzwingung. Der Workflow ist vor der Ausführung fixiert; die Verifikation erfolgt zur Compile-Time; die Laufzeit führt nur aus und prüft, dass alle Verträge eingehalten werden. Der Ansatz unterstützt Replay und Audit-Trails, die für regulierte Anwendungen kritisch sind.

Was bedeutet dies für Enterprise-agentische KI?

GraphFlow füllt eine Lücke, die für medizinische, finanzielle und rechtliche Anwendungsfälle dramatisch ist, wo Compliance-Regime prüfbare, deterministische Workflows verlangen. MedFlow Inc. positioniert sich als Anbieter, der diese Lücke durch einen formalen Verifikationsansatz adressiert — ein radikal anderer Ansatz als der Mainstream-LangChain- oder CrewAI-Stack.

Der Ansatz ergänzt aktuelle Sicherheits-/Zuverlässigkeitspapiere: Microsoft Research KI-Delegierungszuverlässigkeit (15.5., 19–34 % Degradierung), arXiv History Anchors (13.5., 91–98 % unsichere Verschiebung), arXiv Sycophantic Consensus (15.5., Alignment). Alle teilen dieselbe Schlussfolgerung: Aktuelle RLHF-basierte Ansätze sind für geschäftskritische Workloads nicht ausreichend. Formale Verifikation ist eine der wenigen Lösungen, die harte Garantien bietet.

Häufig gestellte Fragen

Was verifiziert GraphFlow konkret?
GraphFlow behandelt Workflow-Diagramme als ausführbare Spezifikation und verwendet Compile-Time-Verifikation einer beschränkten Klasse von Diagrammen; jeder Workflow wird als geprüftes Artefakt eingereicht, bevor er der gemeinsamen Bibliothek beitritt, mit expliziten Verträgen (Vorbedingungen, Nachbedingungen, Kompositionsverpflichtungen).
Was stellt das Compounding-Error-Problem dar?
Wenn jeder Schritt eines agentischen Prozesses 90 % Zuverlässigkeit hat, gelingt ein zehnstufiger Prozess nur in 0,9^10 = 35 % der Fälle erfolgreich; das Problem akkumuliert sich exponentiell in Long-Horizon-Agent-Workflows und ist kritisch für geschäftskritische Anwendungen, bei denen Ausfälle erhebliche Konsequenzen haben.