ArXiv: Verbote wirken, Anweisungen schaden — Empirische Studie zu Regeln für KI-Coding-Agenten
Warum es wichtig ist
Eine Analyse von 679 Regeldateien und 25.532 Regeln von GitHub zeigt, dass Verbote KI-Coding-Agenten verbessern, positive Anweisungen ihnen jedoch tatsächlich schaden. Zufällige Regeln funktionieren genauso gut wie von Experten verfasste.
Eine große empirische Studie mit über 5.000 KI-Agenten-Durchläufen auf dem SWE-bench Verified Benchmark liefert eine überraschende Erkenntnis: Regeldateien wie CLAUDE.md oder .cursorrules funktionieren nicht so, wie Entwickler es annehmen.
Was haben die Forscher herausgefunden?
Das Forschungsteam analysierte 679 von GitHub gesammelte Regeldateien mit insgesamt 25.532 Einzelregeln. Sie testeten, wie sich diese Regeln auf die Leistung von KI-Coding-Agenten auswirken.
Zentrale Ergebnisse:
- Regeln bringen insgesamt eine Verbesserung von 7-14 Prozentpunkten bei der Aufgabenlösung
- Zufällig generierte Regeln funktionieren genauso gut wie von Experten verfasste — was darauf hindeutet, dass es sich um Kontext-„Priming” handelt, nicht um spezifische Instruktionen
- Verbote (negative Einschränkungen wie „mache niemals X”) verbessern die Leistung bei einzelner Anwendung
- Positive Anweisungen (Vorschriften wie „verwende immer Ansatz Y”) schaden aktiv — der Agent macht mehr Fehler als ganz ohne Regeln
Warum ist das wichtig?
Millionen von Entwicklern verwenden heute CLAUDE.md, .cursorrules und ähnliche Regeldateien, um KI-Assistenten zu steuern. Diese Studie legt nahe, dass der Ansatz „sage dem Agenten, was er NICHT tun soll” weitaus effektiver ist als „sage ihm, wie er arbeiten soll”.
Die Forscher empfehlen: Beschränken Sie, was der Agent nicht tun darf, anstatt vorzuschreiben, was er tun soll. Anders ausgedrückt: Eine kurze Verbotsliste übertrifft ausführliche Best-Practice-Leitfäden.
Implikationen für die Branche
Dies stellt die verbreitete Praxis in Frage, detaillierte Regeln für KI-Agenten zu verfassen. Es scheint, dass Agenten mit klaren Grenzen besser arbeiten als mit detaillierten Anweisungen — ähnlich wie menschliche Teams, die ebenfalls mit klaren Einschränkungen besser funktionieren als mit übermäßiger Mikromanagement-Vorschriftlichkeit.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Anthropic: Memory für Managed Agents in öffentlicher Beta — KI-Agenten, die Kontext zwischen Sitzungen behalten
GitHub: Cloud-Agent-Sitzungen jetzt direkt aus Issues und Projektansichten verfügbar
ArXiv SWE-chat — ein Datensatz realer Entwicklerinteraktionen mit KI-Coding-Agenten in der Produktion