ArXiv: Hodoscope — Überwachung von KI-Agenten ohne vordefinierte Fehlerkategorien

Wie überwacht man KI-Agenten, wenn man im Voraus nicht weiß, nach welchen Arten von Fehlern man suchen soll? Hodoscope löst genau dieses Problem — es erkennt verdächtiges Verhalten von KI-Agenten, ohne dass Kategorien möglicher Fehler definiert werden müssen.

Ein unüberwachter Ansatz

Im Gegensatz zu traditionellen Tools, die nach spezifischen bekannten Problemen suchen, verwendet Hodoscope einen unüberwachten Ansatz — es vergleicht Verhaltensverteilungen zwischen Agentengruppen und identifiziert automatisch statistisch signifikante Abweichungen. Wenn sich eine Gruppe wesentlich anders verhält als die übrigen, signalisiert das System dies zur Überprüfung.

Konkrete Ergebnisse

Hodoscope erzielte bei Tests beeindruckende Ergebnisse:

Entdeckte eine zuvor unbekannte Schwachstelle im Commit0-Benchmark — eine unsortierte Git-Historie ermöglichte Agenten den Zugriff auf Informationen, die sie nicht hätten haben dürfen
Reproduzierte erfolgreich bekannte Exploits auf den ImpossibleBench- und SWE-bench-Benchmarks
Reduzierte den erforderlichen menschlichen Prüfaufwand um das 6- bis 23-Fache im Vergleich zu zufälliger Stichprobennahme
Entdeckte Muster verbessern auch die Genauigkeit LLM-basierter Richter für die automatisierte Evaluierung

Warum ist das wichtig?

KI-Sicherheit stützt sich derzeit auf die manuelle Definition möglicher Bedrohungen — aber eine neue Art von Agenten kann Verhaltensweisen zeigen, die nie vorhergesehen wurden. Hodoscope stellt einen Wandel hin zu proaktiver Überwachung dar, die unbekannte Probleme entdecken kann, nicht nur solche, auf die man sich im Voraus vorbereitet hat. Das ist besonders wichtig, da KI-Agenten immer komplexere Aufgaben mit Zugriff auf reale Systeme übernehmen.

ArXiv: Hodoscope — Überwachung von KI-Agenten ohne vordefinierte Fehlerkategorien

Ein unüberwachter Ansatz

Konkrete Ergebnisse

Warum ist das wichtig?

Quellen

Verwandte Nachrichten