KI-Agenten erhalten formalen Policy-as-Code

Forschende haben eine Pipeline entwickelt, die natürlichsprachliche Anweisungen für KI-Agenten, MCP-Tool-Beschreibungen und Richtliniendokumente mithilfe des Cedar Policy Language und einer Generator-Critic-Schleife automatisch in formal verifizierten Code überführt — mit deutlich höherer Spezifikationsabdeckung als manuell geschriebene symbolische Durchsetzung.

Die Lücke zwischen Versprechen und Garantien

Die meisten heutigen Sicherheitsmaßnahmen für KI-Agenten beruhen auf probabilistischen Guardrails — durch Systemprompts und Fine-Tuning auferlegten Einschränkungen ohne formale Garantien. Mondl, Maisel und Brock begnügen sich damit nicht. Ihre Arbeit, die auf dem AIWILD-Workshop auf der ICML 2026 angenommen wurde, stellt eine automatisierte Pipeline vor, die natürlichsprachliche Richtliniendokumente, Prompts und MCP-Tool-Beschreibungen in die Cedar Policy Language überführt — eine formale Sprache für verifizierte Regeln, die Amazon für die Zugriffskontrolle in der Cloud einsetzt.

Wie funktioniert die Generator-Critic-Schleife?

Ein KI-Generator schlägt eine Cedar-Policy aus dem Quelltext vor, während ein zweites KI-Modell als Critic die Abdeckung und Konsistenz prüft. Die Schleife wiederholt sich, bis die Policy alle Bedingungen erfüllt. Das Ergebnis ist maschinell überprüfbarer Code — kein Text, den ein Agent ignorieren könnte.

Was zeigen die Ergebnisse auf MedAgentBench?

Beim medizinischen Agenten MedAgentBench deckten die autoformalisierte Policies einen deutlich größeren Anteil der ursprünglichen natürlichsprachlichen Spezifikation ab als die manuell codierte symbolische Durchsetzung aus früheren Arbeiten. Konkrete Prozentzahlen nennen die Autoren im Abstract nicht, doch der qualitative Unterschied wird als „substantially greater coverage” beschrieben — und genau dort versagt der manuelle Ansatz bei der Skalierung auf komplexere Domänen.

Warum ist Cedar die richtige Wahl?

Die Cedar Policy Language ist auf Ausdrucksstärke und schnelles formales Schlussfolgern ausgelegt. Im Gegensatz zu Python-Skripten oder Regex-Filtern erlauben Cedar-Policies statische Analyse: Man kann beweisen, dass ein Agent niemals ein bestimmtes Tool ohne entsprechende Autorisierung aufruft — ohne einen einzigen realen Aufruf ausführen zu müssen.

Häufig gestellte Fragen

Was ist Policy-as-Code und warum ist es für KI-Agenten wichtig?

Policy-as-Code ist ein Ansatz, bei dem Sicherheitsregeln als formal verifizierter Programmcode statt als natürlichsprachliche Anweisungen festgehalten werden. Für KI-Agenten bedeutet das, dass Einschränkungen mathematisch beweisbar sind, statt nur darauf zu hoffen, dass das Modell sie einhält.

Wie unterscheidet sich die Autoformalisierung von bisherigen Guardrails?

Bisherige probabilistische Guardrails (z. B. Systemprompts) bieten keine formalen Garantien, und manuell geschriebene symbolische Durchsetzung skaliert nicht. Diese Pipeline kombiniert die Flexibilität von KI-Sprachmodellen mit der formalen Verifikation der Cedar Policy Language.

arXiv:2606.26649: Agentenanweisungen werden zu formal verifiziertem Policy-as-Code

Die Lücke zwischen Versprechen und Garantien

Wie funktioniert die Generator-Critic-Schleife?

Was zeigen die Ergebnisse auf MedAgentBench?

Warum ist Cedar die richtige Wahl?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten