ArXiv: Zabrane rade, upute odmažu — empirijska studija pravila za AI kodne agente
Analiza 679 datoteka s pravilima i 25.532 pravila s GitHuba pokazuje da zabrane poboljšavaju AI kodne agente, ali pozitivne upute im zapravo štete. Nasumična pravila rade jednako dobro kao stručno napisana.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Velika empirijska studija s više od 5.000 pokretanja AI agenata na SWE-bench Verified benchmarku donosi iznenađujuće otkriće: datoteke s pravilima poput CLAUDE.md ili .cursorrules ne funkcioniraju onako kako programeri misle.
Što su istraživači otkrili?
Tim istraživača analizirao je 679 datoteka s pravilima prikupljenih s GitHuba, koje sadrže ukupno 25.532 pojedinačnih pravila. Testirali su kako ta pravila utječu na performanse AI kodnih agenata.
Ključni nalazi:
- Pravila ukupno donose poboljšanje od 7-14 postotnih bodova u rješavanju zadataka
- Nasumično generirana pravila rade jednako dobro kao stručno napisana — što sugerira da je u pitanju “priming” konteksta, a ne specifične instrukcije
- Zabrane (negativna ograničenja poput “nikad ne radi X”) poboljšavaju performanse kad se primjenjuju pojedinačno
- Pozitivne upute (preskripcije poput “uvijek koristi Y pristup”) aktivno štete — agent griješi više nego bez ikakvih pravila
Zašto je to važno?
Milijuni programera danas koriste CLAUDE.md, .cursorrules i slične datoteke s pravilima za usmjeravanje AI asistenata. Ova studija sugerira da je pristup “reci agentu što NE smije raditi” daleko učinkovitiji od pristupa “reci mu kako raditi”.
Istraživači preporučuju: ograničite što agent ne smije raditi, umjesto da propisujete što bi trebao. Drugim riječima, kratka lista zabrana nadmašuje dugačke vodiče s najboljim praksama.
Implikacije za industriju
Ovo dovodi u pitanje popularnu praksu pisanja detaljnih pravila za AI agente. Čini se da agenti bolje rade s jasnim granicama nego s detaljnim uputama — slično ljudskim timovima koji također bolje funkcioniraju s jasnim ograničenjima nego s pretjeranom mikromenadžment preskriptivnošću.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije