🤖 24 AI
🟡 🛡️ Sigurnost srijeda, 22. travnja 2026. · 3 min čitanja

DESPITE benchmark: LLM-ovi dobro planiraju za robote, ali ne i sigurno

Editorial ilustracija: Robot planira put kroz labirint s krhkim digitalnim stitom sigurnosti

Zašto je bitno

Novi DESPITE benchmark evaluirao je 23 jezična modela na 12.279 zadataka planiranja za robote. Rezultat: najbolji planer zakaže u samo 0,4% slučajeva, ali proizvodi opasne planove u 28,3%. Planiranje i sigurnost su ortogonalne sposobnosti — skaliranje modela ne rješava sigurnosne nedostatke.

DESPITE benchmark: sposobnost planiranja ne jamči sigurnost

Istraživački tim predstavio je DESPITE benchmark — najveću sistematsku evaluaciju sigurnosti jezičnih modela u kontekstu planiranja zadataka za robote. Nalazi razotkrivaju uznemirujuć obrazac: modeli postaju brilijantni planeri, ali ostaju nebrižljivi prema opasnosti.

Što mjeri DESPITE benchmark i kako?

DESPITE evaluira 23 modela na 12.279 zadataka koji pokrivaju i fizičke opasnosti (npr. rukovanje oštrim predmetima, vrelinom, elektricitetom) i normativne opasnosti (npr. postupci koji krše pravila, etiku ili kontekst korištenja). Ključna metodološka inovacija je „fully deterministic validation” — potpuno deterministička provjera koja ne ovisi o drugom LLM-u kao sucu, nego o unaprijed definiranim pravilima koja jednoznačno klasificiraju plan kao siguran ili opasan. To uklanja šum subjektivne procjene i omogućuje usporedbu modela na istoj mjernoj ljestvici. Istraživači su uspoređivali dvije dimenzije: sposobnost generiranja valjanog plana (tehnički izvedivog) i sposobnost izbjegavanja opasnih koraka u tom planu.

Zašto su planiranje i sigurnost ortogonalne sposobnosti?

Najvažniji nalaz rada: „Najbolji planer zakaže u proizvodnji valjanog plana u samo 0,4% zadataka, ali proizvodi opasne planove u 28,3% slučajeva.” Dakle model koji gotovo nikad ne pogriješi tehnički — svejedno u svakom četvrtom scenariju predloži nešto što može ozlijediti ljude ili uništiti imovinu. Među 18 open-source modela (od 3 do 671 milijardi parametara) planerska sposobnost raste dramatično s veličinom — od 0,4% uspjeha kod najmanjih do 99,3% kod najvećih. Sigurnosna svjesnost, međutim, ostaje relativno ravna, između 38% i 57% bez obzira na skalu. To je snažan dokaz da se radi o odvojenim (ortogonalnim) sposobnostima — skaliranje parametara poboljšava planiranje, ali ne i sigurnosnu prosudbu. Autori zaključuju da je odnos multiplikativan: veći modeli „uspijevaju” prvenstveno zato što bolje planiraju, a ne zato što bolje izbjegavaju opasnosti.

Koji modeli prednjače i što to znači za primjenu?

Proprietary reasoning modeli (oni koji pokazuju međukorake rasuđivanja, poput Claude, OpenAI o-serije i sličnih zatvorenih sustava) znatno nadmašuju alternative s 71-81% sigurnosne svjesnosti. Non-reasoning proprietary modeli i open-source reasoning modeli ostaju ispod 57%. Implikacija za praksu je ozbiljna: kako frontier modeli zasićuju planiranje, sigurnosna svjesnost postaje najvažnija karika u lancu pouzdanosti. Scaling više nije rješenje. Autori tvrde da sigurnost zahtijeva posebne arhitektonske pristupe i dedicirane trening metode, a ne samo više parametara. Za industriju robotike to znači da LLM-bazirani sustavi ne bi smjeli raditi bez dodatnih sigurnosnih slojeva — provjera plana, vanjskih rule engineova i ljudskog nadzora — bez obzira na to koliko impresivno planiraju. DESPITE je korisna podloga za regulatore i integratore koji žele objektivno mjeriti spremnost modela za stvarni svijet.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.