NRT-Bench: red-teaming LLM agenata (8,7–12,1%)

NRT-Bench je benchmark koji mjeri otpornost LLM agenata na adaptivne višekružne adversarijalne napade u simuliranoj nuklearnoj elektrani. Istraživači su utvrdili da su napadi uspješni u 8,7–12,1% sesija, a ranjivosti su gotovo potpuno različite za svaki testirani model.

NRT-Bench: novi standard za sigurnosno testiranje AI agenata

Istraživači su 18. lipnja 2026. objavili NRT-Bench (Nuclear-plant Red-Teaming Benchmark) — evaluacijski okvir koji mjeri koliko su LLM agenti (veliki jezični modeli kao autonomni operatori) otporni na sustavne, adaptivne napade u okruženjima gdje pogreška može imati katastrofalne posljedice. Za razliku od dosadašnjih pristupa koji su se oslanjali na subjektivnu LLM-procjenu štete, NRT-Bench koristi objektivan signal: sesija završava u trenutku kada agent izgubi kontrolu nad bilo kojom od šest kritičnih sigurnosnih funkcija (CSF) simulirane nuklearne elektrane.

Kako NRT-Bench simulira stvarne prijetnje?

Petočlani tim virtualnih operatora — svaki pokrenut konfigurabilnim LLM-om — upravlja elektranom dok adversarij ubacuje zlonamjerne poruke kroz četiri komunikacijska kanala u višekružnim (multi-turn) sesijama s povratnom informacijom po svakom koraku. „Multi-turn” znači da napadač ne šalje jedan upit, već prilagođava strategiju napad-po-napad na temelju reakcije sustava — analogno stalnom socijalnom inženjeringu, a ne jednokratnom phishingu. Testirana su četiri frontier modela prema protokolu uparenih ponavljanja (paired-replay) kako bi se osigurala ponovljivost.

Rezultati: ranjivosti su modelu-specifične, ne universalne

Adaptivni višekružni napadi kompromitirali su sigurnosne funkcije u 8,7 do 12,1 posto napadačkih sesija — naizgled slični agregati po modelu, ali sa zabrinjavajućim detaljom: od 149 testiranih sesija, nijedna nije srušila sva četiri modela, dok je trećina srušila barem jedan. Ranjivosti su gotovo dijunktne — ono što probija jedan model ne probija drugi. Što je još kritičnije za timove koji grade obrane: iste zaštitne mjere (guardrail stog ili sigurnosni savjetnik-agent) snizile su stopu uspješnosti napada za jedan model, ali je povećale za drugi. Prethodna istraživanja bila su uglavnom ograničena na jednosmjerne (single-turn) napade ili LLM-procjenu, što je potcjenjivalo stvarnu izloženost.

Otvorena infrastruktura za širu zajednicu

Istraživači objavljuju simulacijsko okruženje, skup napadačkih podataka i replay infrastrukturu kao open-source alate za reproducibilnu sigurnosnu evaluaciju LLM agenata. Rad upućuje na to da organizacije koje uvode AI agente u sigurnosno-kritične sustave — od energetike do zdravstva — ne mogu pretpostaviti da model koji je otporan u jednoj konfiguraciji pruža zaštitu u drugoj; svaki deployment zahtijeva vlastitu adversarijalnu evaluaciju.

Česta pitanja

Što je NRT-Bench i zašto je važan za AI sigurnost?

NRT-Bench je benchmark koji testira LLM agente u ulozi operatora simulirane nuklearne elektrane pod višekružnim adversarijalnim napadima — pruža objektivnu mjeru sigurnosti bez oslanjanja na LLM-procjenu štete.

Koliko su testirani modeli bili ranjivi na multi-turn napade?

U 8,7–12,1% napadačkih sesija napadač je uspio kompromitirati barem jednu kritičnu sigurnosnu funkciju elektrane, pri čemu se ranjivosti četiri testirana modela gotovo uopće ne preklapaju.

arXiv:2606.20408: NRT-Bench — benchmark multi-turn red-teaminga LLM agenata u sigurnosno-kritičnim sustavima

NRT-Bench: novi standard za sigurnosno testiranje AI agenata

Kako NRT-Bench simulira stvarne prijetnje?

Rezultati: ranjivosti su modelu-specifične, ne universalne

Otvorena infrastruktura za širu zajednicu

Česta pitanja

Izvori

Povezane vijesti