arXiv:2605.22664: WorkstreamBench testira LLM agente na end-to-end spreadsheet zadacima u financijama i frontier modeli padaju
WorkstreamBench je novi benchmark s 10 autora pod vodstvom Thomsona Yena koji testira LLM agente na realnim Excel i spreadsheet zadacima u financijskoj domeni — fakture, izvještaji, analiza troškova. GPT-4o, Claude i Gemini se uspoređuju i nijedan ne prolazi pouzdano kroz cijeli skup zadataka, što ukazuje na strukturalne nedostatke u trenutnoj agentic infrastrukturi za enterprise financije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
ArXiv preprint WorkstreamBench objavljen 22. svibnja 2026. predstavlja prvi benchmark koji testira LLM agente na realnim end-to-end spreadsheet zadacima u financijskoj domeni. Rad pod vodstvom Thomsona Yena, ukupno deset autora, dizajnirao je zadatke koji odgovaraju stvarnoj svakodnevnoj praksi računovođa i financijskih analitičara: obrada faktura, generiranje mjesečnih izvještaja, analiza troškova kroz multiple worksheet-e. Glavni nalaz: nijedan frontier model ne prolazi pouzdano kroz cijeli skup, čak ni s pristupom Excel API tool-u.
Zašto je financijski spreadsheet workflow težak za AI?
Površinski pogled na Excel zadatke sugerira da bi LLM s tool pristupom trebao trivijalno rješavati radne zadatke — pa GPT i Claude već demonstriraju visoke ocjene na MMLU matematici i HumanEval programiranju. Ali realni spreadsheet workflow uključuje slojeve koje benchmark-i tipa MMLU ne dotiču:
Strukturalna kompleksnost: workflow često prelazi 10-50 ćelija s međusobno povezanim formulama. Promjena jedne unose mijenja kaskadu downstream rezultata. Agent mora razumjeti dependency graph, ne samo pojedinačne formule.
Mješoviti formula stilovi: realni spreadsheet kombinira VLOOKUP, INDEX-MATCH, SUMPRODUCT, dinamičke array formule (FILTER, SORT, UNIQUE u modernim verzijama Excel-a), pivot table reference, i custom Named Ranges. Agent mora bilo kojem od njih razumjeti semantičku rolu u workflow-u.
Eksterna validacija: konkretne brojke (porezne stope, tečajni listevi, account codes) moraju odgovarati vanjskim referencama. Agent koji generira sintaktički ispravan workflow ali koristi pogrešne porezne stope za 2026. proizvodi rezultat koji izgleda razumno ali je business-incorrect.
Conditional formatting kao business logic: u realnoj praksi conditional formatting izražava business rules (overdue invoices crveno, approved transactions zeleno). Agent mora razumjeti da format nije samo dekoracija nego semantički sloj.
Koji se modeli testiraju i kakvi su rezultati?
Rad testira četiri frontier modela u dva environment-a: izolirani (model dobiva CSV reprezentaciju spreadsheet-a i piše tekstualni odgovor) i agentic (model ima pristup Excel COM API-ju ili openpyxl tool-u i može izvršiti operacije).
Rezultati u agentic environment-u:
| Model | Faktura | Izvještaj | Analiza | Total |
|---|---|---|---|---|
| GPT-4o | 58% | 47% | 41% | 49% |
| Claude Sonnet 4.6 | 54% | 51% | 43% | 49% |
| Claude Opus 4.7 | 63% | 56% | 52% | 57% |
| Gemini 3 Pro | 51% | 44% | 38% | 44% |
Claude Opus 4.7 vodi s 57 posto agregatnim score-om, ali to znači da 43 posto zadataka producira netočan rezultat. U financijama netočan rezultat nije “blizu točnog” — to je račun koji ne odgovara, pogrešno fakturiran iznos, krivi izvještaj za regulatora.
Koji su konkretni failure modes?
Autori dokumentiraju četiri najčešća failure modea:
- Reference drift: agent ažurira jednu ćeliju ali ne ažurira sve formule koje referenciraju nju. Rezultat: sažetni iznosi ne odgovaraju detail brojkama.
- Format ignored: agent generira ispravnu numeričku vrijednost ali ne primjenjuje currency format ili decimal precision koje workflow zahtjeva — što proizvodi izvještaj koji business analyst odbacuje.
- Validation skip: agent ne provjerava da generirani iznosi odgovaraju vanjskim source-ovima (npr. PDF faktura). Rezultat: spreadsheet stanje ne odgovara stvarnosti.
- Schema break: agent dodaje nove kolone ali ne ažurira pivot table ili dashboard koji konzumira data — što lomi downstream izvještaje.
Što ovo znači za SaaS proizvode koji se reklamiraju kao “AI za računovođe”?
Implikacije za enterprise AI proizvode su konkretne. Proizvodi koji se reklamiraju kao “automatska obrada faktura” ili “AI bookkeeper” — uključujući neke vrhunske SaaS proizvode na hrvatskom i europskom tržištu — najvjerojatnije ne mogu pouzdano obraditi cijeli workflow bez ljudskog reviewa svakog koraka. Marketing materijali često sugeriraju autonomnu obradu; benchmark dokazuje da je realnost još uvijek “AI predlaže, čovjek odobrava”.
Autori sugeriraju dva pravca poboljšanja. Prvo, fine-tuning modela na curated spreadsheet workflow datasete (postoje labeled datasete od ~10.000 zadataka koje benchmark koristi). Drugo, integracija s formal validation layer-om koji prije aplikacije promjena provjerava semantički ekvivalentno staro i novo stanje — što sprječava reference drift i schema break failure modes.
WorkstreamBench je javan i dostupan istraživačima za reprodukciju i extension.
Česta pitanja
- Zašto je financijski spreadsheet workflow težak za AI?
- Spreadsheet zadaci u financijama nisu izolirani Excel triks-i — uključuju end-to-end logiku koja povezuje 10-50 ćelija, formule s vlookup i index-match strukturom, validaciju protiv vanjskih izvora, i conditional formatting koji odražava business rules. Agent mora razumjeti i strukturu i semantiku.
- Koji se modeli testiraju?
- Rad testira GPT-4o, Claude Sonnet 4.6, Claude Opus 4.7 i Gemini 3 Pro u izoliranom okruženju (bez vanjskog tool-a) i u agentic okruženju (s Excel API tool-om). Performans se mjeri kroz formula correctness, end-state validity i workflow completion rate.
- Koji su praktične implikacije rezultata?
- Za SaaS proizvode koji se reklamiraju kao 'AI za računovođe' (Lehem.app, automated invoice processors, AI bookkeepers) — rezultati pokazuju da je pouzdana automation realnih financijskih spreadsheet workflowa još uvijek izvan dosega bez ljudskog reviewa svakog koraka.
Povezane vijesti
arXiv:2605.22681: CUSP benchmark pokazuje da frontier modeli ne mogu pouzdano predviđati znanstvene proboje
arXiv:2605.22337: Meta-Soft uvodi kompresiju KV cachea kroz composable meta-tokene i naučljive ortogonalne baze
Anthropic Claude Code v2.1.150 — interni infrastrukturni patch bez korisničkih promjena