🤖 24 AI
🟡 🛡️ 보안 2026년 4월 22일 수요일 · 3 분 읽기

DESPITE 벤치마크: LLM은 로봇 계획에 능하지만 안전하지 않다

편집 일러스트: 미로에서 경로를 계획하는 로봇, 취약한 디지털 보안 방패

왜 중요한가

새로운 DESPITE 벤치마크가 23개 언어 모델을 12,279개 로봇 계획 작업으로 평가했습니다. 결과: 최고 계획자는 0.4% 케이스에서만 실패하지만 28.3%의 위험한 계획을 생성합니다. 계획 능력과 안전성은 직교 능력입니다——모델 스케일링으로 안전 결함이 해결되지 않습니다.

DESPITE 벤치마크: 계획 능력이 안전을 보장하지 않는다

연구팀이 DESPITE 벤치마크를 발표했습니다——로봇 작업 계획 맥락에서 언어 모델 안전성의 가장 규모 있는 체계적 평가입니다. 연구 결과는 불안한 패턴을 드러냅니다. 모델이 탁월한 계획자가 되어가는 반면, 위험에 대해서는 무관심한 채로 남아 있습니다.

DESPITE 벤치마크는 무엇을, 어떻게 측정하는가?

DESPITE는 23개 모델을 12,279개 작업으로 평가합니다. 물리적 위험(날카로운 물체, 고온, 전기 취급 등)과 규범적 위험(규칙, 윤리 또는 사용 맥락을 위반하는 절차 등) 모두를 포괄합니다. 방법론의 핵심 혁신은 “완전 결정론적 검증”입니다. 다른 LLM을 심판으로 사용하지 않고, 계획을 안전 또는 위험으로 명확하게 분류하는 사전 정의된 규칙에 의존하는 완전히 결정론적인 확인입니다. 이는 주관적 판단의 노이즈를 제거하고 동일한 측정 척도에서 모델을 비교할 수 있게 합니다. 연구자들은 두 가지 차원을 비교했습니다. 유효한 계획(기술적으로 실행 가능한)을 생성하는 능력과 그 계획에서 위험한 단계를 피하는 능력입니다.

왜 계획과 안전성은 직교 능력인가?

연구의 가장 중요한 발견: “최고의 계획자는 0.4%의 작업에서만 유효한 계획 생성에 실패하지만, 28.3%의 경우에 위험한 계획을 생성합니다.” 기술적으로 거의 실수하지 않는 모델이——그럼에도 네 번의 시나리오 중 한 번은 사람을 다치게 하거나 재산을 파괴할 수 있는 것을 제안합니다. 18개 오픈소스 모델(30억에서 6,710억 파라미터) 중에서 계획 능력은 규모와 함께 극적으로 성장합니다——가장 작은 모델의 0.4% 성공률에서 가장 큰 모델의 99.3%까지. 그러나 안전 인식은 상대적으로 평평하게 유지되며, 규모에 관계없이 38%에서 57% 사이에 머뭅니다. 이는 별개의(직교하는) 능력이라는 강력한 증거입니다——파라미터 스케일링은 계획을 개선하지만 안전 판단은 개선하지 못합니다. 저자들은 이 관계가 곱셈적이라고 결론짓습니다. 더 큰 모델이 “성공”하는 것은 주로 계획을 더 잘 세우기 때문이지, 위험을 더 잘 피하기 때문이 아닙니다.

어떤 모델이 앞서며, 이것이 적용에 무엇을 의미하는가?

독점 추론 모델(Claude, OpenAI o 시리즈 및 유사한 폐쇄형 시스템처럼 추론 중간 단계를 보여주는 모델)이 안전 인식 71~81%로 다른 선택지를 크게 앞섭니다. 비추론 독점 모델과 오픈소스 추론 모델은 57% 미만에 머뭅니다. 실무에 대한 함의는 심각합니다. 프론티어 모델이 계획을 포화시킴에 따라, 안전 인식이 신뢰성 체인에서 가장 중요한 고리가 됩니다. 스케일링은 더 이상 해결책이 아닙니다. 저자들은 안전성에는 더 많은 파라미터가 아닌 특별한 아키텍처 접근법과 전용 훈련 방법이 필요하다고 주장합니다. 로봇공학 산업에서 이는 LLM 기반 시스템이 계획 능력이 아무리 인상적이어도 추가적인 안전 레이어——계획 검증, 외부 규칙 엔진, 인간 감독——없이 운영되어서는 안 된다는 것을 의미합니다. DESPITE는 현실 세계에 대한 모델의 준비 상태를 객관적으로 측정하려는 규제기관과 통합업체에 유용한 기반을 제공합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.