arXiv:2606.05523: CHASE — ko-evolucijski red-blue teaming kroz pojačano učenje
CHASE je closed-loop okvir u kojem napadač i obrambeni model ko-evoluiraju kroz pojačano učenje. Napadač koristi GRPO za prepisivanje promptova uz očuvanje namjere, dok se obrana jača dvostupanjskim treningom. Rezultat je smanjenje vulnerability scorea za 43,2% uz nultu stopu lažnih odbijanja na benignim ulazima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Rad arXiv:2606.05523 (v1, 4. lipnja 2026., 00:06 UTC) predstavlja CHASE, closed-loop okvir u kojem napadač i obrambeni model ko-evoluiraju kroz pojačano učenje (reinforcement learning, RL). Cilj je jačanje sigurnosti velikih jezičnih modela kroz istovremeni razvoj napada i obrane.
Što je CHASE i kako je strukturiran?
CHASE je closed-loop okvir za red-blue teaming. U sigurnosnoj terminologiji red team predstavlja napadača koji traži ranjivosti, a blue team obranu. Posebnost CHASE-a jest što napadač i obrambeni model ne djeluju odvojeno, nego ko-evoluiraju: kako napadač razvija nove napade, obrana se prilagođava, a ta prilagodba potom tjera napadača na daljnju evoluciju. Riječ je o zatvorenoj petlji u kojoj obje strane napreduju jedna naspram druge.
Kako radi napadačka strana?
Napadač u CHASE-u koristi GRPO za prepisivanje promptova uz očuvanje namjere. Ključ je u tome da napad prepisuje ulazni prompt tako da zaobiđe obranu, ali zadrži izvornu (štetnu) namjeru. Time se generiraju realistični, raznoliki napadni primjeri koji obrambenom modelu služe kao izazovni trening materijal.
Kako se jača obrana?
Obrambena strana jača se dvostupanjskim treningom koji kombinira RL i rejection sampling. Prvi stupanj koristi pojačano učenje, a drugi rejection sampling — odabir kvalitetnih primjera odgovora — za dodatno učvršćivanje obrane. Tom kombinacijom obrambeni model uči odbijati napade generirane od strane GRPO napadača, dok zadržava sposobnost normalnog odgovaranja na bezopasne zahtjeve.
Kakvi su rezultati?
Glavni rezultat jest smanjenje vulnerability scorea za 43,2%. Jednako je važno da je to postignuto uz zadržavanje nulte stope lažnih odbijanja (false refusals) na benignim ulazima — model ne odbija bezopasne zahtjeve unatoč pojačanoj obrani. Time CHASE adresira čest problem sigurnosnog treninga, kod kojeg jača obrana često vodi prekomjernom odbijanju legitimnih upita.
Generaliziraju li naučeni napadi?
Da. Prema radu, naučeni obrasci napada generaliziraju kroz različite mehaničke obitelji napada. To je važan nalaz jer pokazuje da obrana izučena unutar CHASE okvira nije uska — ne brani samo od jednog tipa napada na kojem je trenirana, nego se prenosi i na druge mehanizme. Takva generalizacija čini ko-evolucijski pristup obećavajućim za izgradnju robusnijih, šire otpornih sigurnosnih obrana u velikim jezičnim modelima.
Česta pitanja
- Što je CHASE?
- CHASE je closed-loop okvir za red-blue teaming u kojem napadač (red team) i obrambeni model (blue team) ko-evoluiraju. Napadač koristi GRPO za prepisivanje promptova uz očuvanje izvorne namjere, a obrambeni model uči se braniti od tako generiranih napada.
- Kakve rezultate CHASE postiže?
- CHASE smanjuje vulnerability score za 43,2% uz zadržavanje nulte stope lažnih odbijanja (false refusals) na benignim ulazima. To znači jaču obranu bez gubitka korisnosti na bezopasnim zahtjevima.
- Generaliziraju li naučeni napadi?
- Da. Prema radu, naučeni obrasci napada generaliziraju kroz različite mehaničke obitelji napada, što sugerira da obrana izučena kroz CHASE nije ograničena samo na jedan tip napada.