ArXiv SAVeR: self-auditing za LLM agente — provjeri prije nego što izvršiš (ACL 2026)

Problem koji SAVeR rješava

Postoji suptilna ali kritična ranjivost u trenutnim LLM agentima: razmišljanje može izgledati logično ispravno, a istovremeno kršiti činjenična ili dokazna ograničenja. Posljedica: lažna uvjerenja se propagiraju kroz sustav odlučivanja, agent radi pogrešne akcije, i nitko ne primijeti dok ne bude prekasno.

Istraživači to ovako opisuju: “Koherentno razmišljanje može i dalje kršiti logička ili dokazna ograničenja, omogućujući da neopravdana uvjerenja budu opetovano pohranjena i propagirana” kroz korake odluke.

Što SAVeR radi?

SAVeR (Self-Audited Verified Reasoning) je framework koji ubacuje verifikacijske checkpointe unutar agentova internog sustava uvjerenja PRIJE nego što izvrši akciju. Funkcionira u tri koraka:

Generiranje raznolikih kandidata — različitih persona/perspektiva razmišljanja
Adversarialni audit — identifikacija logičkih kršenja
Constraint-guided minimal interventions — popravak pogrešnog razmišljanja prije izvršavanja

Razlika od drugih pristupa

Trenutni agentski sustavi često se oslanjaju na konsenzusne mehanizme — ako više modela ili više pokušaja daju isti odgovor, pretpostavlja se da je točan. SAVeR autori upozoravaju da je to problematična pretpostavka: slaganje nije isto što i točnost.

SAVeR umjesto toga eksplicitno traži logička ograničenja koja uvjerenja moraju zadovoljiti, te audita razmišljanje protiv tih ograničenja.

Zašto je ovo značajno?

U kontekstu kada agenti dobivaju sve više autonomije:

Microsoft Agent-Framework dopušta multi-step automatizaciju
AWS AgentCore pruža stateful MCP sposobnosti
Anthropic Managed Agents izvršava cijele zadatke autonomno
OpenAI Codex može pisati i deployati kod bez ljudskog pregleda

Sve to su moćne sposobnosti, ali bez čvrste verifikacije, agent može ići krivim putem dugo prije nego što čovjek to primijeti. SAVeR je jedan od prvih pokušaja da se ta verifikacija ugradi u sam tok razmišljanja agenta.

Status

Rad je prihvaćen na ACL 2026 main conference — znak da akademska zajednica vidi rad kao značajan doprinos. Implementacija će biti dostupna kao open-source.

Ako se SAVeR pokaže učinkovitim u praksi, mogao bi postati standardni komponent u “trustworthy agent” stack-u — upravo onako kako Anthropic preporučuje u svom novom Trustworthy Agents in Practice frameworku.