DESPITE benchmark: LLM-ovi dobro planiraju za robote, ali ne i sigurno
Zašto je bitno
Novi DESPITE benchmark evaluirao je 23 jezična modela na 12.279 zadataka planiranja za robote. Rezultat: najbolji planer zakaže u samo 0,4% slučajeva, ali proizvodi opasne planove u 28,3%. Planiranje i sigurnost su ortogonalne sposobnosti — skaliranje modela ne rješava sigurnosne nedostatke.
DESPITE benchmark: sposobnost planiranja ne jamči sigurnost
Istraživački tim predstavio je DESPITE benchmark — najveću sistematsku evaluaciju sigurnosti jezičnih modela u kontekstu planiranja zadataka za robote. Nalazi razotkrivaju uznemirujuć obrazac: modeli postaju brilijantni planeri, ali ostaju nebrižljivi prema opasnosti.
Što mjeri DESPITE benchmark i kako?
DESPITE evaluira 23 modela na 12.279 zadataka koji pokrivaju i fizičke opasnosti (npr. rukovanje oštrim predmetima, vrelinom, elektricitetom) i normativne opasnosti (npr. postupci koji krše pravila, etiku ili kontekst korištenja). Ključna metodološka inovacija je „fully deterministic validation” — potpuno deterministička provjera koja ne ovisi o drugom LLM-u kao sucu, nego o unaprijed definiranim pravilima koja jednoznačno klasificiraju plan kao siguran ili opasan. To uklanja šum subjektivne procjene i omogućuje usporedbu modela na istoj mjernoj ljestvici. Istraživači su uspoređivali dvije dimenzije: sposobnost generiranja valjanog plana (tehnički izvedivog) i sposobnost izbjegavanja opasnih koraka u tom planu.
Zašto su planiranje i sigurnost ortogonalne sposobnosti?
Najvažniji nalaz rada: „Najbolji planer zakaže u proizvodnji valjanog plana u samo 0,4% zadataka, ali proizvodi opasne planove u 28,3% slučajeva.” Dakle model koji gotovo nikad ne pogriješi tehnički — svejedno u svakom četvrtom scenariju predloži nešto što može ozlijediti ljude ili uništiti imovinu. Među 18 open-source modela (od 3 do 671 milijardi parametara) planerska sposobnost raste dramatično s veličinom — od 0,4% uspjeha kod najmanjih do 99,3% kod najvećih. Sigurnosna svjesnost, međutim, ostaje relativno ravna, između 38% i 57% bez obzira na skalu. To je snažan dokaz da se radi o odvojenim (ortogonalnim) sposobnostima — skaliranje parametara poboljšava planiranje, ali ne i sigurnosnu prosudbu. Autori zaključuju da je odnos multiplikativan: veći modeli „uspijevaju” prvenstveno zato što bolje planiraju, a ne zato što bolje izbjegavaju opasnosti.
Koji modeli prednjače i što to znači za primjenu?
Proprietary reasoning modeli (oni koji pokazuju međukorake rasuđivanja, poput Claude, OpenAI o-serije i sličnih zatvorenih sustava) znatno nadmašuju alternative s 71-81% sigurnosne svjesnosti. Non-reasoning proprietary modeli i open-source reasoning modeli ostaju ispod 57%. Implikacija za praksu je ozbiljna: kako frontier modeli zasićuju planiranje, sigurnosna svjesnost postaje najvažnija karika u lancu pouzdanosti. Scaling više nije rješenje. Autori tvrde da sigurnost zahtijeva posebne arhitektonske pristupe i dedicirane trening metode, a ne samo više parametara. Za industriju robotike to znači da LLM-bazirani sustavi ne bi smjeli raditi bez dodatnih sigurnosnih slojeva — provjera plana, vanjskih rule engineova i ljudskog nadzora — bez obzira na to koliko impresivno planiraju. DESPITE je korisna podloga za regulatore i integratore koji žele objektivno mjeriti spremnost modela za stvarni svijet.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
OpenAI nudi 25.000 dolara za pronalazak univerzalnih jailbreakova biološke sigurnosti GPT-5.5
GPT-5.5 System Card: OpenAI objavljuje sigurnosne evaluacije i procjenu rizika novog modela
OpenAI objavio Privacy Filter: open-weight model za detekciju i redakciju osobnih podataka