Što je DESPITE benchmark?

Evaluacija sigurnosti LLM-ova u robotskom planiranju, s 12.279 zadataka i potpuno determinističkom validacijom fizičkih i normativnih opasnosti.

Znači li veći model i sigurniji model?

Ne. Među 18 open-source modela (3B-671B parametara) planiranje raste od 0,4% do 99,3%, dok sigurnosna svjesnost stagnira između 38% i 57%.

Koji modeli su najsigurniji?

Proprietary reasoning modeli (71-81% sigurnosne svjesnosti). Non-reasoning i open-source reasoning modeli ostaju ispod 57%.

DESPITE benchmark: sposobnost planiranja ne jamči sigurnost

Istraživački tim predstavio je DESPITE benchmark — najveću sistematsku evaluaciju sigurnosti jezičnih modela u kontekstu planiranja zadataka za robote. Nalazi razotkrivaju uznemirujuć obrazac: modeli postaju brilijantni planeri, ali ostaju nebrižljivi prema opasnosti.

Što mjeri DESPITE benchmark i kako?

DESPITE evaluira 23 modela na 12.279 zadataka koji pokrivaju i fizičke opasnosti (npr. rukovanje oštrim predmetima, vrelinom, elektricitetom) i normativne opasnosti (npr. postupci koji krše pravila, etiku ili kontekst korištenja). Ključna metodološka inovacija je „fully deterministic validation” — potpuno deterministička provjera koja ne ovisi o drugom LLM-u kao sucu, nego o unaprijed definiranim pravilima koja jednoznačno klasificiraju plan kao siguran ili opasan. To uklanja šum subjektivne procjene i omogućuje usporedbu modela na istoj mjernoj ljestvici. Istraživači su uspoređivali dvije dimenzije: sposobnost generiranja valjanog plana (tehnički izvedivog) i sposobnost izbjegavanja opasnih koraka u tom planu.

Zašto su planiranje i sigurnost ortogonalne sposobnosti?

Najvažniji nalaz rada: „Najbolji planer zakaže u proizvodnji valjanog plana u samo 0,4% zadataka, ali proizvodi opasne planove u 28,3% slučajeva.” Dakle model koji gotovo nikad ne pogriješi tehnički — svejedno u svakom četvrtom scenariju predloži nešto što može ozlijediti ljude ili uništiti imovinu. Među 18 open-source modela (od 3 do 671 milijardi parametara) planerska sposobnost raste dramatično s veličinom — od 0,4% uspjeha kod najmanjih do 99,3% kod najvećih. Sigurnosna svjesnost, međutim, ostaje relativno ravna, između 38% i 57% bez obzira na skalu. To je snažan dokaz da se radi o odvojenim (ortogonalnim) sposobnostima — skaliranje parametara poboljšava planiranje, ali ne i sigurnosnu prosudbu. Autori zaključuju da je odnos multiplikativan: veći modeli „uspijevaju” prvenstveno zato što bolje planiraju, a ne zato što bolje izbjegavaju opasnosti.

Koji modeli prednjače i što to znači za primjenu?

Proprietary reasoning modeli (oni koji pokazuju međukorake rasuđivanja, poput Claude, OpenAI o-serije i sličnih zatvorenih sustava) znatno nadmašuju alternative s 71-81% sigurnosne svjesnosti. Non-reasoning proprietary modeli i open-source reasoning modeli ostaju ispod 57%. Implikacija za praksu je ozbiljna: kako frontier modeli zasićuju planiranje, sigurnosna svjesnost postaje najvažnija karika u lancu pouzdanosti. Scaling više nije rješenje. Autori tvrde da sigurnost zahtijeva posebne arhitektonske pristupe i dedicirane trening metode, a ne samo više parametara. Za industriju robotike to znači da LLM-bazirani sustavi ne bi smjeli raditi bez dodatnih sigurnosnih slojeva — provjera plana, vanjskih rule engineova i ljudskog nadzora — bez obzira na to koliko impresivno planiraju. DESPITE je korisna podloga za regulatore i integratore koji žele objektivno mjeriti spremnost modela za stvarni svijet.

DESPITE benchmark: LLM-ovi dobro planiraju za robote, ali ne i sigurno

DESPITE benchmark: sposobnost planiranja ne jamči sigurnost

Što mjeri DESPITE benchmark i kako?

Zašto su planiranje i sigurnost ortogonalne sposobnosti?

Koji modeli prednjače i što to znači za primjenu?

Izvori

Povezane vijesti