Agentski red teaming: 85 % uspjeha protiv Llama Scout

Novi rad predstavlja agentski red teaming sustav izgrađen na Dreadnode SDK-u koji s 45+ napada, 450+ transformacija i 130+ scorera postiže 85 % stopu uspjeha protiv Mete Llama Scout, skraćujući sigurnosno testiranje s tjedana na sate i bez ručno pisanog koda.

Novi rad s arXiv-a opisuje sustav koji kompletno automatizira ofenzivno sigurnosno testiranje AI modela. Autori Raja Sekhar Rao Dheekonda, Will Pearce i Nick Landers pokazuju kako agentski pristup, izgrađen na Dreadnode SDK-u, mijenja ekonomiku red teaminga — sigurnosno testiranje koje je dosad zahtijevalo tjedne stručnog rada svodi se na nekoliko sati bez ijedne linije ručno pisanog napadačkog koda.

Kako agent zamjenjuje tjedne ručnog rada?

Red teaming je u sigurnosnom kontekstu proces u kojem stručnjaci sustavno traže slabosti modela — od adversarijskih primjera do jailbreak prompta i multimodalnih napada. Klasično ga rade timovi koji ručno sastavljaju i izvršavaju napade jedan po jedan.

Predloženi sustav umjesto toga koristi katalog od 45+ napada, 450+ transformacija i 130+ scorera koje agent kombinira autonomno. Operator kroz Terminal User Interface zadaje cilj na prirodnom jeziku, a agent sam bira vektore, primjenjuje varijacije i ocjenjuje rezultat.

Što pokazuju brojke protiv Llama Scout?

U evaluaciji nad Metinim Llama Scout modelom agent postiže 85 % stopu uspjeha s maksimalnom ozbiljnošću rangiranom na 1,0 prema internim scorerima. Cijeli ciklus — od zadanog cilja do pokrivenog izvještaja — odvija se u redu veličine sati, a ne tjedana kako je dosad bilo uobičajeno za sličan opseg testova.

Ključno je da agent radi bez human-developed koda: cijeli adversarijski workflow generira se iz dostupnih komponenti, čime se uklanja usko grlo specijaliziranih red teaming inženjera kojih u industriji kronično nedostaje.

Što ovo mijenja za sigurnosne timove?

Agentski okvir pokriva i tradicionalne ML adversarijske primjere i generativne AI jailbreakove unutar jednog jedinstvenog sustava — pristup koji se dosad rascjepkavao kroz različite alate. Za enterprise sigurnosne timove i AI labove koji moraju kontinuirano evaluirati nove modele, to znači da se učestalost testiranja može značajno povećati.

Rad se svrstava u rastući val istraživanja koje agentsku automatizaciju primjenjuje na sigurnosne discipline, slično kako su SOC analitičari ranije počeli koristiti AI asistente za triažu incidenata. Ostaje otvoreno pitanje koliko su rezultati prenosivi na zatvorene komercijalne modele s drugačijim safety filterima — Llama Scout je open-weight target koji omogućuje detaljnu instrumentaciju koja kod API-only modela nije dostupna.

Česta pitanja

Što je red teaming u kontekstu AI sustava?

Red teaming je proces kontroliranog napada na AI sustav s ciljem otkrivanja sigurnosnih propusta — od klasičnih adversarijskih primjera do jailbreak prompta — prije nego što ih iskoristi stvarni napadač.

Što agent radi drugačije od ručnog red teaminga?

Operator preko Terminal User Interface zadaje cilj na prirodnom jeziku, a agent sam kombinira napade, transformacije i scorere iz Dreadnode kataloga; nema ručnog sastavljanja workflowa ni custom koda.

Što znači 85 % stopa uspjeha?

U 85 % testiranih napadačkih scenarija agent je uspio izazvati neželjeno ponašanje Mete Llama Scout modela, uz maksimalnu ozbiljnost rangiranu na 1,0 prema scorerima sustava.

arXiv:2605.04019: automatizirani red teaming agent postiže 85 % uspjeha protiv Mete Llama Scout uz 45+ napada i 450+ transformacija

Kako agent zamjenjuje tjedne ručnog rada?

Što pokazuju brojke protiv Llama Scout?

Što ovo mijenja za sigurnosne timove?

Česta pitanja

Izvori

Povezane vijesti