ArXiv: Zabrane rade, upute odmažu — empirijska studija pravila za AI kodne agente

Velika empirijska studija s više od 5.000 pokretanja AI agenata na SWE-bench Verified benchmarku donosi iznenađujuće otkriće: datoteke s pravilima poput CLAUDE.md ili .cursorrules ne funkcioniraju onako kako programeri misle.

Što su istraživači otkrili?

Tim istraživača analizirao je 679 datoteka s pravilima prikupljenih s GitHuba, koje sadrže ukupno 25.532 pojedinačnih pravila. Testirali su kako ta pravila utječu na performanse AI kodnih agenata.

Ključni nalazi:

Pravila ukupno donose poboljšanje od 7-14 postotnih bodova u rješavanju zadataka
Nasumično generirana pravila rade jednako dobro kao stručno napisana — što sugerira da je u pitanju “priming” konteksta, a ne specifične instrukcije
Zabrane (negativna ograničenja poput “nikad ne radi X”) poboljšavaju performanse kad se primjenjuju pojedinačno
Pozitivne upute (preskripcije poput “uvijek koristi Y pristup”) aktivno štete — agent griješi više nego bez ikakvih pravila

Zašto je to važno?

Milijuni programera danas koriste CLAUDE.md, .cursorrules i slične datoteke s pravilima za usmjeravanje AI asistenata. Ova studija sugerira da je pristup “reci agentu što NE smije raditi” daleko učinkovitiji od pristupa “reci mu kako raditi”.

Istraživači preporučuju: ograničite što agent ne smije raditi, umjesto da propisujete što bi trebao. Drugim riječima, kratka lista zabrana nadmašuje dugačke vodiče s najboljim praksama.

Implikacije za industriju

Ovo dovodi u pitanje popularnu praksu pisanja detaljnih pravila za AI agente. Čini se da agenti bolje rade s jasnim granicama nego s detaljnim uputama — slično ljudskim timovima koji također bolje funkcioniraju s jasnim ograničenjima nego s pretjeranom mikromenadžment preskriptivnošću.

ArXiv: Zabrane rade, upute odmažu — empirijska studija pravila za AI kodne agente

Što su istraživači otkrili?

Zašto je to važno?

Implikacije za industriju

Izvori

Povezane vijesti