🟡 🤝 Agenti četvrtak, 7. svibnja 2026. · 2 min čitanja ·

GitHub: validacija agentskog ponašanja preko dominator analize iz teorije kompilatora postiže 100 % točnost vs 82 % agent self-assessment

Editorial illustration: dijagram graf strukture s istaknutim dominator čvorovima koji predstavljaju esencijalne korake u agentskom izvršavanju

GitHub objavljuje validacijski okvir za nedeterminističke AI agente koji posuđuje dominator analizu iz teorije kompilatora — iz 2 do 10 uspješnih izvršavanja Copilot Coding Agenta sustav uči koji su koraci esencijalni, a koji opcionalni, te postiže 100 % točnost u razlikovanju agentskih bugova od pravih regresija proizvoda.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

GitHub-ov istraživački tim objavio je validacijski okvir koji posuđuje dominator analizu iz teorije kompilatora kako bi rješavao problem nedeterminističkog ponašanja AI agenata u CI/CD pipelineima. Tradicionalno testiranje pretpostavlja determinističke putove izvršavanja, ali agenti poput Copilot Coding Agenta često prolaze kroz različite valjane putanje gdje varijacije okoline (loading screenovi, timing pomaci, razlike u UI renderingu) generiraju lažne negative.

Što je dominator analiza i kako se primjenjuje na agente?

Dominator analiza je tehnika iz teorije kompilatora — u grafu izvršavanja, stanje A “dominira” stanjem B ako svaka uspješna putanja do B mora proći kroz A. GitHub-ov okvir uzima 2 do 10 uspješnih trace-ova agenta, pretvara ih u Prefix Tree Acceptore (PTA) — usmjerene grafove gdje su čvorovi opažena stanja, a bridovi akcije agenta — i izračunava dominator skup kako bi razdvojio esencijalne kontrolne točke od opcionalnog šuma.

Sustav koristi tro-slojnu evaluaciju ekvivalencije stanja: vizualne metrike (perceptual hashing, SSIM), semantičku analizu putem multimodalnog LLM-a koja ignorira timestampe ali bilježi nedostatne UI kontrole, te konzervativno spajanje stanja samo kada je ekvivalencija sigurna.

Koje su izmjerene koristi u odnosu na agent self-assessment?

Na internom test setu za VS Code ekstenziju, PTA pristup s dominator analizom postiže 100 % točnost, 100 % preciznost i 100 % recall, dok agentova vlastita procjena ostaje na 82,2 % točnosti, 83,3 % preciznosti i 60 % recalla. Razlika je najveća u recallu — gotovo +40 postotnih bodova — što znači da agent često previdi vlastite greške.

Još važnije, agent self-assessment ima 0 % F1-score u detekciji lažnih alarma, dok strukturni okvir doseže 52,2 % F1 u razlikovanju agentskih izvršnih grešaka od pravih regresija proizvoda. Praktično, to znači da CI sustav prestaje slati programere u lov na lažne bugove kad se promijeni samo timing, a stvarno ponašanje proizvoda je nepromijenjeno.

Koja su trenutna ograničenja okvira?

Sustav zahtijeva uspješne trace-ove za učenje (cold-start problem), ovisi o pristupu multimodalnom LLM-u za semantičku ekvivalenciju, i još ne može označiti vremenske prekršaje poput predugog loading screen-a. U planiranom razvoju su detekcija temporalnih i negativnih ograničenja, hijerarhijska apstrakcija screenshota u koncepte i online učenje s real-time osvježavanjem modela.

Autori Gaurav Mittal (Microsoft Code AI) i Reshabh Kumar Sharma (UW PhD) ističu glavnu tezu: “Ne trebamo black-box modele da sude drugim black-box modelima — trebamo strukturne garancije koje programeri mogu inspicirati.”

Česta pitanja

Što je dominator analiza?
Dominator analiza je tehnika iz teorije kompilatora gdje se za graf izvršavanja izračunava koja stanja MORAJU biti posjećena prije dolaska do cilja. Ovdje se primjenjuje na agentske trace-ove kako bi razdvojila esencijalne korake od slučajnih varijacija.
Koliko traceova framework treba za učenje?
Između 2 i 10 uspješnih izvršavanja agenta. Iz njih sustav gradi prefiksno stablo (PTA), spaja semantički ekvivalentna stanja i izvlači minimalni model 'osnovne istine'.
Koja je glavna korist u CI/CD pipelineima?
Smanjenje lažnih negativa zbog varijacija okoline (loading screenovi, timing, UI rendering). Agent self-assessment imao je 0 % F1 u detekciji lažnih alarma, dok strukturni okvir doseže 52,2 % F1.