GitHub: validacija agentskog ponašanja preko dominator analize iz teorije kompilatora postiže 100 % točnost vs 82 % agent self-assessment
GitHub objavljuje validacijski okvir za nedeterminističke AI agente koji posuđuje dominator analizu iz teorije kompilatora — iz 2 do 10 uspješnih izvršavanja Copilot Coding Agenta sustav uči koji su koraci esencijalni, a koji opcionalni, te postiže 100 % točnost u razlikovanju agentskih bugova od pravih regresija proizvoda.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
GitHub-ov istraživački tim objavio je validacijski okvir koji posuđuje dominator analizu iz teorije kompilatora kako bi rješavao problem nedeterminističkog ponašanja AI agenata u CI/CD pipelineima. Tradicionalno testiranje pretpostavlja determinističke putove izvršavanja, ali agenti poput Copilot Coding Agenta često prolaze kroz različite valjane putanje gdje varijacije okoline (loading screenovi, timing pomaci, razlike u UI renderingu) generiraju lažne negative.
Što je dominator analiza i kako se primjenjuje na agente?
Dominator analiza je tehnika iz teorije kompilatora — u grafu izvršavanja, stanje A “dominira” stanjem B ako svaka uspješna putanja do B mora proći kroz A. GitHub-ov okvir uzima 2 do 10 uspješnih trace-ova agenta, pretvara ih u Prefix Tree Acceptore (PTA) — usmjerene grafove gdje su čvorovi opažena stanja, a bridovi akcije agenta — i izračunava dominator skup kako bi razdvojio esencijalne kontrolne točke od opcionalnog šuma.
Sustav koristi tro-slojnu evaluaciju ekvivalencije stanja: vizualne metrike (perceptual hashing, SSIM), semantičku analizu putem multimodalnog LLM-a koja ignorira timestampe ali bilježi nedostatne UI kontrole, te konzervativno spajanje stanja samo kada je ekvivalencija sigurna.
Koje su izmjerene koristi u odnosu na agent self-assessment?
Na internom test setu za VS Code ekstenziju, PTA pristup s dominator analizom postiže 100 % točnost, 100 % preciznost i 100 % recall, dok agentova vlastita procjena ostaje na 82,2 % točnosti, 83,3 % preciznosti i 60 % recalla. Razlika je najveća u recallu — gotovo +40 postotnih bodova — što znači da agent često previdi vlastite greške.
Još važnije, agent self-assessment ima 0 % F1-score u detekciji lažnih alarma, dok strukturni okvir doseže 52,2 % F1 u razlikovanju agentskih izvršnih grešaka od pravih regresija proizvoda. Praktično, to znači da CI sustav prestaje slati programere u lov na lažne bugove kad se promijeni samo timing, a stvarno ponašanje proizvoda je nepromijenjeno.
Koja su trenutna ograničenja okvira?
Sustav zahtijeva uspješne trace-ove za učenje (cold-start problem), ovisi o pristupu multimodalnom LLM-u za semantičku ekvivalenciju, i još ne može označiti vremenske prekršaje poput predugog loading screen-a. U planiranom razvoju su detekcija temporalnih i negativnih ograničenja, hijerarhijska apstrakcija screenshota u koncepte i online učenje s real-time osvježavanjem modela.
Autori Gaurav Mittal (Microsoft Code AI) i Reshabh Kumar Sharma (UW PhD) ističu glavnu tezu: “Ne trebamo black-box modele da sude drugim black-box modelima — trebamo strukturne garancije koje programeri mogu inspicirati.”
Česta pitanja
- Što je dominator analiza?
- Dominator analiza je tehnika iz teorije kompilatora gdje se za graf izvršavanja izračunava koja stanja MORAJU biti posjećena prije dolaska do cilja. Ovdje se primjenjuje na agentske trace-ove kako bi razdvojila esencijalne korake od slučajnih varijacija.
- Koliko traceova framework treba za učenje?
- Između 2 i 10 uspješnih izvršavanja agenta. Iz njih sustav gradi prefiksno stablo (PTA), spaja semantički ekvivalentna stanja i izvlači minimalni model 'osnovne istine'.
- Koja je glavna korist u CI/CD pipelineima?
- Smanjenje lažnih negativa zbog varijacija okoline (loading screenovi, timing, UI rendering). Agent self-assessment imao je 0 % F1 u detekciji lažnih alarma, dok strukturni okvir doseže 52,2 % F1.
Povezane vijesti
Anthropic: Managed Agents dobivaju multiagent sesije, Outcomes, webhooks i vault refresh u javnoj beti
vLLM: integracija Mooncake distributed KV cache storea donosi 3,8× veći throughput i 46× nižu P50 TTFT za multi-turn agentske workloade
Anthropic: 10 gotovih financial-services agent templatea + Claude Opus 4.7 64,37 % na Vals AI Finance benchmarku