ICML 2026 Spotlight: Stable-GFlowNet uvodi stabilnije i raznovrsnije automatizirano red-teamanje LLM-ova
Tim s KAIST-a i NAVER Cloud-a predstavio je Stable-GFlowNet (S-GFN), novi pristup automatiziranom red-teamingu velikih jezičnih modela koji eliminira procjenu particijske funkcije Z i koristi parovne usporedbe za stabilno učenje. Rad je dobio ICML 2026 Spotlight oznaku — manje od 5 % prihvaćenih radova — i rješava kronični problem GFlowNet-ova: trening nestabilnost i mode collapse pri šumovitim nagradama.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Minchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han i Junmo Kim s KAIST-a i NAVER Cloud-a objavili su 1. svibnja 2026. rad Stable-GFlowNet (S-GFN) koji je dobio prestižnu ICML 2026 Spotlight oznaku. Riječ je o vrhunskom signalu kvalitete — manje od 5 % prihvaćenih radova na ICML-u dobiva Spotlight, što ovaj pristup automatiziranom red-teamingu LLM-ova pretvara u referentni rad za 2026.
Centralni problem koji rad rješava je trening nestabilnost i mode collapse u GFlowNet-ovima — vrsti neuronskih mreža koje uče generirati raznovrsne uzorke iz distribucije proporcionalne funkciji nagrade. U kontekstu red-teaminga, GFlowNet treba generirati napade na cilj-LLM s različitim obrascima, ne samo varijante istog jailbreaka.
Kako Stable-GFlowNet rješava problem nestabilnosti?
S-GFN eliminira procjenu particijske funkcije Z — kompleksan integral koji u klasičnim GFlowNet-ovima izaziva trening nestabilnost. Umjesto toga, autori uvode parovne usporedbe trajektorija (contrastive trajectory balance): umjesto da procjenjuju apsolutnu skalu nagrade, mreža uspoređuje uspješnost dva napada međusobno.
Tehnička posljedica je velika: parovne usporedbe su robusne na šum u nagradi (cilj-model može vraćati nedosljedne signale uspjeha napada), a istovremeno čuvaju glavno svojstvo GFlowNet-a — generiranje raznovrsnih uzoraka.
Što je “fluency stabilizer”?
Drugi tehnički doprinos je fluency stabilizer koji sprečava konvergenciju na niskokvalitetna rješenja. U red-teamingu, nestabilan trening može gurnuti model prema “napadima” koji su zapravo besmisleni nizovi tokena (visoka nagrada zbog buga u funkciji nagrade, ne zbog stvarne efikasnosti). Stabilizator filtrira takve patološke modove i drži generirane upite jezično koherentnima.
Zašto je raznovrsno red-teamanje toliko bitno?
Sustavi koji generiraju samo varijante istog jailbreak-a brzo upadaju u mode collapse — nađu jednu rupu (npr. role-play “pretvaraj se da si DAN”) i beskonačno je variraju. Sigurnosni tim koji popravi tu jednu rupu je u zabludi da je problem riješen jer red-teaming sustav ne pokriva ostale obrasce.
S-GFN pokriva širu distribuciju napada, što znači da nakon ciklusa popravka postoji veći broj različitih ranjivosti otkrivenih i adresiranih. Za AI vendore (Anthropic, OpenAI, Google) koji legalno moraju demonstrirati robusnost prije deploymenta, takav alat smanjuje rizik od javnih incidenata.
Kako se uklapa u širi sigurnosni ekosustav?
Rad nadovezuje na seriju nedavnih radova o automatiziranom red-teamingu — Microsoft Research je 30. travnja objavio analizu mreže agenata, ARMOR 2025 je 30. travnja postavio doktrinarni vojni benchmark, a različiti laboratoriji rade na alignment-faking detekciji. Stable-GFlowNet je metodološki temelj koji svi ostali okviri mogu koristiti za generiranje testnih scenarija.
Za istraživače je dostupnost koda i checkpoint-a otvoreno pitanje — autori obećavaju kasniji release, što je tipičan obrazac za ICML Spotlight radove.
Česta pitanja
- Što je GFlowNet u kontekstu red-teaminga?
- GFlowNet (Generative Flow Network) je vrsta neuronske mreže koja uči generirati raznovrsne uzorke iz distribucije proporcionalne funkciji nagrade. U red-teamingu, nagrada se daje za uspješne napade na cilj-model — GFlowNet uči generirati napade pokrivajući mnogo različitih obrazaca, ne samo varijante istog jailbreaka.
- Što je 'contrastive trajectory balance' i zašto je to ključan doprinos?
- Klasični GFlowNet zahtijeva procjenu particijske funkcije Z, što je kompliciran integral. S-GFN zaobilazi taj problem koristeći parovne usporedbe trajektorija — uspoređuje uspješnost dva napada međusobno, bez potrebe za apsolutnom skalom. To rješenje smanjuje trening nestabilnost i robusnije se nosi sa šumovitim nagradama.
- Zašto je važno red-teamanje raznovrsno?
- Sustavi koji generiraju samo varijante istog jailbreaka brzo zaplove u 'mode collapse' — nalaze jednu rupu i ponavljaju je. Raznovrsno red-teamanje otkriva više različitih ranjivosti pa je produkcijski model robusnije zaštićen nakon popravka. Sigurnosni timovi trebaju širinu, ne dubinu jednog napada.
Povezane vijesti
ArXiv ARMOR 2025: prvi vojni benchmark za LLM sigurnost s 519 promptova kroz 21 komercijalni model
Exploration Hacking: mogu li LLM-ovi naučiti opirati se RL treningu i strategijski potiskivati vlastite sposobnosti?
MCPHunt: prvi benchmark koji mjeri curenje vjerodajnica između granica povjerenja u multi-server MCP agentima — stope 11,5–41,3 %