ICML 2026: Stable-GFlowNet, raznovrsno red-teamanje LLM-ova

Tim s KAIST-a i NAVER Cloud-a predstavio je Stable-GFlowNet (S-GFN), novi pristup automatiziranom red-teamingu velikih jezičnih modela koji eliminira procjenu particijske funkcije Z i koristi parovne usporedbe za stabilno učenje. Rad je dobio ICML 2026 Spotlight oznaku — manje od 5 % prihvaćenih radova — i rješava kronični problem GFlowNet-ova: trening nestabilnost i mode collapse pri šumovitim nagradama.

Minchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han i Junmo Kim s KAIST-a i NAVER Cloud-a objavili su 1. svibnja 2026. rad Stable-GFlowNet (S-GFN) koji je dobio prestižnu ICML 2026 Spotlight oznaku. Riječ je o vrhunskom signalu kvalitete — manje od 5 % prihvaćenih radova na ICML-u dobiva Spotlight, što ovaj pristup automatiziranom red-teamingu LLM-ova pretvara u referentni rad za 2026.

Centralni problem koji rad rješava je trening nestabilnost i mode collapse u GFlowNet-ovima — vrsti neuronskih mreža koje uče generirati raznovrsne uzorke iz distribucije proporcionalne funkciji nagrade. U kontekstu red-teaminga, GFlowNet treba generirati napade na cilj-LLM s različitim obrascima, ne samo varijante istog jailbreaka.

Kako Stable-GFlowNet rješava problem nestabilnosti?

S-GFN eliminira procjenu particijske funkcije Z — kompleksan integral koji u klasičnim GFlowNet-ovima izaziva trening nestabilnost. Umjesto toga, autori uvode parovne usporedbe trajektorija (contrastive trajectory balance): umjesto da procjenjuju apsolutnu skalu nagrade, mreža uspoređuje uspješnost dva napada međusobno.

Tehnička posljedica je velika: parovne usporedbe su robusne na šum u nagradi (cilj-model može vraćati nedosljedne signale uspjeha napada), a istovremeno čuvaju glavno svojstvo GFlowNet-a — generiranje raznovrsnih uzoraka.

Što je “fluency stabilizer”?

Drugi tehnički doprinos je fluency stabilizer koji sprečava konvergenciju na niskokvalitetna rješenja. U red-teamingu, nestabilan trening može gurnuti model prema “napadima” koji su zapravo besmisleni nizovi tokena (visoka nagrada zbog buga u funkciji nagrade, ne zbog stvarne efikasnosti). Stabilizator filtrira takve patološke modove i drži generirane upite jezično koherentnima.

Zašto je raznovrsno red-teamanje toliko bitno?

Sustavi koji generiraju samo varijante istog jailbreak-a brzo upadaju u mode collapse — nađu jednu rupu (npr. role-play “pretvaraj se da si DAN”) i beskonačno je variraju. Sigurnosni tim koji popravi tu jednu rupu je u zabludi da je problem riješen jer red-teaming sustav ne pokriva ostale obrasce.

S-GFN pokriva širu distribuciju napada, što znači da nakon ciklusa popravka postoji veći broj različitih ranjivosti otkrivenih i adresiranih. Za AI vendore (Anthropic, OpenAI, Google) koji legalno moraju demonstrirati robusnost prije deploymenta, takav alat smanjuje rizik od javnih incidenata.

Kako se uklapa u širi sigurnosni ekosustav?

Rad nadovezuje na seriju nedavnih radova o automatiziranom red-teamingu — Microsoft Research je 30. travnja objavio analizu mreže agenata, ARMOR 2025 je 30. travnja postavio doktrinarni vojni benchmark, a različiti laboratoriji rade na alignment-faking detekciji. Stable-GFlowNet je metodološki temelj koji svi ostali okviri mogu koristiti za generiranje testnih scenarija.

Za istraživače je dostupnost koda i checkpoint-a otvoreno pitanje — autori obećavaju kasniji release, što je tipičan obrazac za ICML Spotlight radove.

Česta pitanja

Što je GFlowNet u kontekstu red-teaminga?

GFlowNet (Generative Flow Network) je vrsta neuronske mreže koja uči generirati raznovrsne uzorke iz distribucije proporcionalne funkciji nagrade. U red-teamingu, nagrada se daje za uspješne napade na cilj-model — GFlowNet uči generirati napade pokrivajući mnogo različitih obrazaca, ne samo varijante istog jailbreaka.

Što je 'contrastive trajectory balance' i zašto je to ključan doprinos?

Klasični GFlowNet zahtijeva procjenu particijske funkcije Z, što je kompliciran integral. S-GFN zaobilazi taj problem koristeći parovne usporedbe trajektorija — uspoređuje uspješnost dva napada međusobno, bez potrebe za apsolutnom skalom. To rješenje smanjuje trening nestabilnost i robusnije se nosi sa šumovitim nagradama.

Zašto je važno red-teamanje raznovrsno?

Sustavi koji generiraju samo varijante istog jailbreaka brzo zaplove u 'mode collapse' — nalaze jednu rupu i ponavljaju je. Raznovrsno red-teamanje otkriva više različitih ranjivosti pa je produkcijski model robusnije zaštićen nakon popravka. Sigurnosni timovi trebaju širinu, ne dubinu jednog napada.

ICML 2026 Spotlight: Stable-GFlowNet uvodi stabilnije i raznovrsnije automatizirano red-teamanje LLM-ova

Kako Stable-GFlowNet rješava problem nestabilnosti?

Što je “fluency stabilizer”?

Zašto je raznovrsno red-teamanje toliko bitno?

Kako se uklapa u širi sigurnosni ekosustav?

Česta pitanja

Izvori

Povezane vijesti