Welche Modelle werden getestet?

Das Papier testet GPT-4o, Claude Sonnet 4.6, Claude Opus 4.7 und Gemini 3 Pro in einer isolierten Umgebung (ohne externes Tool) und in einer Agenten-Umgebung (mit Excel-API-Tool). Die Leistung wird anhand von Formelkorrektheit, End-State-Validität und Workflow-Abschlussrate gemessen.

Was sind die praktischen Implikationen der Ergebnisse?

Für SaaS-Produkte, die als „KI für Buchhalter” vermarktet werden — automatisierte Rechnungsverarbeitung, KI-Buchhalter — zeigen die Ergebnisse, dass eine zuverlässige Automatisierung realer Finanz-Spreadsheet-Workflows ohne menschliche Überprüfung jedes Schritts noch nicht erreichbar ist.

arXiv WorkstreamBench: KI-Agenten scheitern an Excel

Q: Warum ist ein finanzieller Tabellenkalkulations-Workflow für KI schwierig?

Tabellenkalkulationsaufgaben im Finanzbereich sind keine isolierten Excel-Tricks — sie umfassen End-to-End-Logik, die 10–50 Zellen verbindet, Formeln mit VLOOKUP- und INDEX-MATCH-Strukturen, Validierung gegen externe Quellen und bedingte Formatierung, die Geschäftsregeln widerspiegelt. Ein Agent muss Struktur und Semantik gleichermaßen verstehen.

WorkstreamBench ist ein neuer Benchmark mit zehn Autoren unter der Leitung von Thomson Yen, der KI-Agenten auf realen Excel- und Tabellenkalkulationsaufgaben im Finanzbereich testet — Rechnungen, Berichte, Kostenanalyse. GPT-4o, Claude und Gemini werden verglichen, und keines besteht den vollständigen Aufgabensatz zuverlässig — ein Hinweis auf strukturelle Mängel in der aktuellen Agenten-Infrastruktur für das Enterprise-Finanzwesen.

Das am 22. Mai 2026 veröffentlichte arXiv-Preprint WorkstreamBench stellt den ersten Benchmark vor, der KI-Agenten auf realen End-to-End-Tabellenkalkulationsaufgaben im Finanzbereich testet. Das von Thomson Yen geleitete Papier — insgesamt zehn Autoren — entwarf Aufgaben, die der tatsächlichen täglichen Praxis von Buchhaltern und Finanzanalysten entsprechen: Rechnungsverarbeitung, Erstellung monatlicher Berichte, Kostenanalyse über mehrere Arbeitsblätter hinweg. Der Hauptbefund: Kein Frontier-Modell besteht den vollständigen Aufgabensatz zuverlässig, selbst nicht mit Zugang zu einem Excel-API-Tool.

Warum ist ein finanzieller Tabellenkalkulations-Workflow für KI schwierig?

Auf den ersten Blick könnte man meinen, dass ein LLM mit Tool-Zugang Excel-Aufgaben trivial lösen sollte — GPT und Claude zeigen bereits hohe Werte bei MMLU-Mathematik und HumanEval-Programmierung. Doch ein realer Spreadsheet-Workflow umfasst Schichten, die MMLU-artige Benchmarks nicht berühren:

Strukturelle Komplexität: Ein Workflow umfasst oft 10–50 Zellen mit wechselseitig abhängigen Formeln. Die Änderung eines Eintrags löst eine Kaskade nachgelagerter Ergebnisse aus. Der Agent muss den Abhängigkeitsgraphen verstehen, nicht nur einzelne Formeln.

Gemischte Formelstile: Eine reale Tabellenkalkulation kombiniert VLOOKUP, INDEX-MATCH, SUMPRODUCT, dynamische Array-Formeln (FILTER, SORT, UNIQUE in modernen Excel-Versionen), Pivot-Table-Referenzen und benutzerdefinierte Named Ranges. Der Agent muss die semantische Rolle jeder dieser Strukturen im Workflow verstehen.

Externe Validierung: Konkrete Zahlen (Steuersätze, Wechselkursblätter, Kontocodes) müssen mit externen Referenzen übereinstimmen. Ein Agent, der einen syntaktisch korrekten Workflow generiert, aber falsche Steuersätze für 2026 verwendet, erzeugt ein Ergebnis, das vernünftig aussieht, aber geschäftlich falsch ist.

Bedingte Formatierung als Geschäftslogik: In der Praxis drückt bedingte Formatierung Geschäftsregeln aus (überfällige Rechnungen in Rot, genehmigte Buchungen in Grün). Der Agent muss verstehen, dass Formatierung keine Dekoration, sondern eine semantische Schicht ist.

Welche Modelle wurden getestet und wie sind die Ergebnisse?

Das Papier testet vier Frontier-Modelle in zwei Umgebungen: isoliert (das Modell erhält eine CSV-Darstellung der Tabellenkalkulation und verfasst eine Textantwort) und agentisch (das Modell hat Zugang zu einem Excel-COM-API oder openpyxl-Tool und kann Operationen ausführen).

Ergebnisse in der agentischen Umgebung:

Modell	Rechnung	Bericht	Analyse	Gesamt
GPT-4o	58 %	47 %	41 %	49 %
Claude Sonnet 4.6	54 %	51 %	43 %	49 %
Claude Opus 4.7	63 %	56 %	52 %	57 %
Gemini 3 Pro	51 %	44 %	38 %	44 %

Claude Opus 4.7 führt mit einem aggregierten Score von 57 Prozent — das bedeutet aber, dass 43 Prozent der Aufgaben ein fehlerhaftes Ergebnis produzieren. Im Finanzbereich ist ein fehlerhaftes Ergebnis nicht „nah am Richtigen” — es ist ein Konto, das nicht stimmt, ein falsch berechneter Betrag oder ein falscher Bericht für eine Behörde.

Was sind die konkreten Fehlermodi?

Die Autoren dokumentieren vier häufigste Fehlermodi:

Reference Drift: Der Agent aktualisiert eine Zelle, aber nicht alle Formeln, die auf sie verweisen. Ergebnis: Zusammenfassungsbeträge stimmen nicht mit Detailzahlen überein.
Format ignoriert: Der Agent generiert den korrekten numerischen Wert, wendet aber nicht das Währungsformat oder die Dezimalpräzision an, die der Workflow erfordert — was einen Bericht erzeugt, den ein Geschäftsanalyst ablehnt.
Validierung übersprungen: Der Agent prüft nicht, ob die generierten Beträge mit externen Quellen übereinstimmen (z. B. einer PDF-Rechnung). Ergebnis: Der Tabellenkalkulationsstatus spiegelt nicht die Realität wider.
Schema-Bruch: Der Agent fügt neue Spalten hinzu, aktualisiert aber nicht die Pivot-Tabelle oder das Dashboard, das die Daten konsumiert — was nachgelagerte Berichte zerstört.

Was bedeutet das für SaaS-Produkte, die als „KI für Buchhalter” vermarktet werden?

Die Implikationen für Enterprise-KI-Produkte sind konkret. Produkte, die als „automatisierte Rechnungsverarbeitung” oder „KI-Buchhalter” vermarktet werden — darunter einige Top-SaaS-Produkte auf dem kroatischen und europäischen Markt — können höchstwahrscheinlich keinen vollständigen Workflow ohne menschliche Überprüfung jedes Schritts zuverlässig verarbeiten. Marketingmaterialien suggerieren oft autonome Verarbeitung; der Benchmark zeigt, dass die Realität noch immer „KI schlägt vor, Mensch genehmigt” lautet.

Die Autoren schlagen zwei Verbesserungsrichtungen vor. Erstens: Fine-Tuning von Modellen auf kuratierten Spreadsheet-Workflow-Datensätzen (es gibt gelabelte Datensätze mit ~10.000 Aufgaben, die der Benchmark verwendet). Zweitens: Integration einer formalen Validierungsschicht, die vor der Anwendung von Änderungen die semantische Äquivalenz von altem und neuem Zustand prüft — was Reference-Drift- und Schema-Bruch-Fehlermodi verhindert.

WorkstreamBench ist öffentlich und für Forscher zur Reproduktion und Erweiterung verfügbar.

arXiv:2605.22664: WorkstreamBench testet KI-Agenten auf End-to-End-Tabellenkalkulationsaufgaben im Finanzbereich — und Frontier-Modelle scheitern

Warum ist ein finanzieller Tabellenkalkulations-Workflow für KI schwierig?

Welche Modelle wurden getestet und wie sind die Ergebnisse?

Was sind die konkreten Fehlermodi?

Was bedeutet das für SaaS-Produkte, die als „KI für Buchhalter” vermarktet werden?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten