ArXiv: Zabrane rade, upute odmažu — empirijska studija pravila za AI kodne agente
Zašto je bitno
Analiza 679 datoteka s pravilima i 25.532 pravila s GitHuba pokazuje da zabrane poboljšavaju AI kodne agente, ali pozitivne upute im zapravo štete. Nasumična pravila rade jednako dobro kao stručno napisana.
Velika empirijska studija s više od 5.000 pokretanja AI agenata na SWE-bench Verified benchmarku donosi iznenađujuće otkriće: datoteke s pravilima poput CLAUDE.md ili .cursorrules ne funkcioniraju onako kako programeri misle.
Što su istraživači otkrili?
Tim istraživača analizirao je 679 datoteka s pravilima prikupljenih s GitHuba, koje sadrže ukupno 25.532 pojedinačnih pravila. Testirali su kako ta pravila utječu na performanse AI kodnih agenata.
Ključni nalazi:
- Pravila ukupno donose poboljšanje od 7-14 postotnih bodova u rješavanju zadataka
- Nasumično generirana pravila rade jednako dobro kao stručno napisana — što sugerira da je u pitanju “priming” konteksta, a ne specifične instrukcije
- Zabrane (negativna ograničenja poput “nikad ne radi X”) poboljšavaju performanse kad se primjenjuju pojedinačno
- Pozitivne upute (preskripcije poput “uvijek koristi Y pristup”) aktivno štete — agent griješi više nego bez ikakvih pravila
Zašto je to važno?
Milijuni programera danas koriste CLAUDE.md, .cursorrules i slične datoteke s pravilima za usmjeravanje AI asistenata. Ova studija sugerira da je pristup “reci agentu što NE smije raditi” daleko učinkovitiji od pristupa “reci mu kako raditi”.
Istraživači preporučuju: ograničite što agent ne smije raditi, umjesto da propisujete što bi trebao. Drugim riječima, kratka lista zabrana nadmašuje dugačke vodiče s najboljim praksama.
Implikacije za industriju
Ovo dovodi u pitanje popularnu praksu pisanja detaljnih pravila za AI agente. Čini se da agenti bolje rade s jasnim granicama nego s detaljnim uputama — slično ljudskim timovima koji također bolje funkcioniraju s jasnim ograničenjima nego s pretjeranom mikromenadžment preskriptivnošću.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji