arXiv:2606.26649: Agentenanweisungen werden zu formal verifiziertem Policy-as-Code
Forschende haben eine Pipeline entwickelt, die natürlichsprachliche Anweisungen für KI-Agenten, MCP-Tool-Beschreibungen und Richtliniendokumente mithilfe des Cedar Policy Language und einer Generator-Critic-Schleife automatisch in formal verifizierten Code überführt — mit deutlich höherer Spezifikationsabdeckung als manuell geschriebene symbolische Durchsetzung.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Die Lücke zwischen Versprechen und Garantien
Die meisten heutigen Sicherheitsmaßnahmen für KI-Agenten beruhen auf probabilistischen Guardrails — durch Systemprompts und Fine-Tuning auferlegten Einschränkungen ohne formale Garantien. Mondl, Maisel und Brock begnügen sich damit nicht. Ihre Arbeit, die auf dem AIWILD-Workshop auf der ICML 2026 angenommen wurde, stellt eine automatisierte Pipeline vor, die natürlichsprachliche Richtliniendokumente, Prompts und MCP-Tool-Beschreibungen in die Cedar Policy Language überführt — eine formale Sprache für verifizierte Regeln, die Amazon für die Zugriffskontrolle in der Cloud einsetzt.
Wie funktioniert die Generator-Critic-Schleife?
Ein KI-Generator schlägt eine Cedar-Policy aus dem Quelltext vor, während ein zweites KI-Modell als Critic die Abdeckung und Konsistenz prüft. Die Schleife wiederholt sich, bis die Policy alle Bedingungen erfüllt. Das Ergebnis ist maschinell überprüfbarer Code — kein Text, den ein Agent ignorieren könnte.
Was zeigen die Ergebnisse auf MedAgentBench?
Beim medizinischen Agenten MedAgentBench deckten die autoformalisierte Policies einen deutlich größeren Anteil der ursprünglichen natürlichsprachlichen Spezifikation ab als die manuell codierte symbolische Durchsetzung aus früheren Arbeiten. Konkrete Prozentzahlen nennen die Autoren im Abstract nicht, doch der qualitative Unterschied wird als „substantially greater coverage” beschrieben — und genau dort versagt der manuelle Ansatz bei der Skalierung auf komplexere Domänen.
Warum ist Cedar die richtige Wahl?
Die Cedar Policy Language ist auf Ausdrucksstärke und schnelles formales Schlussfolgern ausgelegt. Im Gegensatz zu Python-Skripten oder Regex-Filtern erlauben Cedar-Policies statische Analyse: Man kann beweisen, dass ein Agent niemals ein bestimmtes Tool ohne entsprechende Autorisierung aufruft — ohne einen einzigen realen Aufruf ausführen zu müssen.
Häufig gestellte Fragen
- Was ist Policy-as-Code und warum ist es für KI-Agenten wichtig?
- Policy-as-Code ist ein Ansatz, bei dem Sicherheitsregeln als formal verifizierter Programmcode statt als natürlichsprachliche Anweisungen festgehalten werden. Für KI-Agenten bedeutet das, dass Einschränkungen mathematisch beweisbar sind, statt nur darauf zu hoffen, dass das Modell sie einhält.
- Wie unterscheidet sich die Autoformalisierung von bisherigen Guardrails?
- Bisherige probabilistische Guardrails (z. B. Systemprompts) bieten keine formalen Garantien, und manuell geschriebene symbolische Durchsetzung skaliert nicht. Diese Pipeline kombiniert die Flexibilität von KI-Sprachmodellen mit der formalen Verifikation der Cedar Policy Language.
Quellen
Verwandte Nachrichten
arXiv:2606.26758: EGG — Mehrагenten-Framework generiert GPU-Kernel 2,13× schneller als PyTorch
AWS: Stripe hat über 100 KI-Agenten für die Finanzcompliance eingeführt — Erkenntnisse aus dem Produktionsbetrieb
Anthropic: Claude Code v2.1.195 — Maus deaktivieren, verbessertes Voice Dictation und Hook-Korrekturen