GitHub: Dominatoranalyse für KI-Agenten, 100 % Genauigkeit

GitHub veröffentlicht ein Validierungsframework für nicht-deterministische KI-Agenten, das die Dominatoranalyse aus der Compilertheorie nutzt — aus 2 bis 10 erfolgreichen Ausführungen des Copilot Coding Agent lernt das System, welche Schritte essenziell und welche optional sind, und erreicht 100 % Genauigkeit bei der Unterscheidung von Agenten-Bugs und echten Produkt-Regressionen.

GitHubs Forschungsteam hat ein Validierungsframework veröffentlicht, das Dominatoranalyse aus der Compilertheorie nutzt, um das Problem nicht-deterministischen KI-Agentenverhaltens in CI/CD-Pipelines zu lösen. Klassisches Testen setzt deterministische Ausführungspfade voraus, aber Agenten wie der Copilot Coding Agent durchlaufen oft unterschiedliche gültige Routen, bei denen Umgebungsvariationen (Ladebildschirme, Timing-Verschiebungen, UI-Rendering-Unterschiede) Falsch-Negative erzeugen.

Was ist Dominatoranalyse und wie wird sie auf Agenten angewendet?

Dominatoranalyse ist eine Technik aus der Compilertheorie — in einem Ausführungsgraph dominiert Zustand A den Zustand B, wenn jeder erfolgreiche Pfad zu B durch A führen muss. GitHubs Framework nimmt 2 bis 10 erfolgreiche Agenten-Traces, wandelt sie in Prefix Tree Acceptors (PTAs) um — gerichtete Graphen, in denen Knoten beobachtete Zustände und Kanten Agenten-Aktionen sind — und berechnet die Dominatormenge, um essenzielle Kontrollpunkte vom optionalen Rauschen zu trennen.

Das System nutzt eine dreischichtige Zustandsäquivalenz-Bewertung: visuelle Metriken (Perceptual Hashing, SSIM), semantische Analyse per multimodalem LLM, das Zeitstempel ignoriert aber fehlende UI-Steuerelemente notiert, sowie konservatives Zusammenführen von Zuständen nur bei sicherer Äquivalenz.

Welche Vorteile wurden gegenüber der Agenten-Selbstbeurteilung gemessen?

Auf einem internen Testset für die VS Code-Extension erreicht der PTA-Ansatz mit Dominatoranalyse 100 % Genauigkeit, 100 % Präzision und 100 % Recall, während die eigene Einschätzung des Agenten bei 82,2 % Genauigkeit, 83,3 % Präzision und 60 % Recall bleibt. Der Unterschied ist beim Recall am größten — fast +40 Prozentpunkte — d. h. der Agent übersieht häufig eigene Fehler.

Noch wichtiger: Die Agenten-Selbstbeurteilung hat einen F1-Score von 0 % bei der Erkennung falscher Alarme, während das strukturelle Framework 52,2 % F1 bei der Unterscheidung von Agenten-Ausführungsfehlern und echten Produkt-Regressionen erreicht. Praktisch bedeutet das, dass das CI-System aufhört, Entwickler auf Phantom-Fehler-Suche zu schicken, wenn sich nur das Timing geändert hat, das eigentliche Produktverhalten aber unverändert geblieben ist.

Welche aktuellen Einschränkungen hat das Framework?

Das System benötigt erfolgreiche Traces zum Lernen (Cold-Start-Problem), ist auf den Zugang zu einem multimodalen LLM für semantische Äquivalenz angewiesen und kann noch keine zeitlichen Verstöße wie zu lange Ladebildschirme markieren. Geplant sind Erkennung temporaler und negativer Einschränkungen, hierarchische Abstraktion von Screenshots in Konzepte sowie Online-Lernen mit Echtzeit-Modell-Updates.

Die Autoren Gaurav Mittal (Microsoft Code AI) und Reshabh Kumar Sharma (UW PhD) betonen die Kernthese: „Wir brauchen keine Black-Box-Modelle, die andere Black-Box-Modelle beurteilen — wir brauchen strukturelle Garantien, die Entwickler inspizieren können.”

Häufig gestellte Fragen

Was ist Dominatoranalyse?

Dominatoranalyse ist eine Technik aus der Compilertheorie — in einem Ausführungsgraph dominiert Zustand A den Zustand B, wenn jeder erfolgreiche Pfad zu B durch A führen muss. Hier wird sie auf Agenten-Traces angewandt, um essenzielle Schritte von zufälligen Variationen zu trennen.

Wie viele Traces benötigt das Framework zum Lernen?

Zwischen 2 und 10 erfolgreichen Agenten-Ausführungen. Daraus baut das System einen Prefix Tree Acceptor (PTA), führt semantisch äquivalente Zustände zusammen und extrahiert ein minimales Grundwahrheitsmodell.

Was ist der Hauptvorteil in CI/CD-Pipelines?

Reduzierung von Falsch-Negativen durch Umgebungsvariationen (Ladebildschirme, Timing, UI-Rendering). Die Agenten-Selbstbeurteilung hatte 0 % F1 bei der Erkennung falscher Alarme, während das strukturelle Framework 52,2 % F1 erreicht.

GitHub: Validierung agentischen Verhaltens per Dominatoranalyse aus der Compilertheorie erreicht 100 % Genauigkeit vs. 82 % Agenten-Selbstbeurteilung

Was ist Dominatoranalyse und wie wird sie auf Agenten angewendet?

Welche Vorteile wurden gegenüber der Agenten-Selbstbeurteilung gemessen?

Welche aktuellen Einschränkungen hat das Framework?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten