DESPITE 벤치마크란 무엇입니까?

로봇 계획에서 LLM의 안전성 평가로, 12,279개 작업과 물리적·규범적 위험에 대한 완전 결정론적 검증을 수행합니다.

더 큰 모델이 더 안전한 모델을 의미합니까?

아닙니다. 18개 오픈소스 모델(3B~671B 파라미터)에서 계획 능력은 0.4%에서 99.3%로 증가하지만, 안전 인식은 38%~57% 사이에 정체됩니다.

어떤 모델이 가장 안전합니까?

독점 추론 모델(안전 인식 71~81%). 비추론 및 오픈소스 추론 모델은 57% 미만에 머뭅니다.

DESPITE 벤치마크: 계획 능력이 안전을 보장하지 않는다

연구팀이 DESPITE 벤치마크를 발표했습니다——로봇 작업 계획 맥락에서 언어 모델 안전성의 가장 규모 있는 체계적 평가입니다. 연구 결과는 불안한 패턴을 드러냅니다. 모델이 탁월한 계획자가 되어가는 반면, 위험에 대해서는 무관심한 채로 남아 있습니다.

DESPITE 벤치마크는 무엇을, 어떻게 측정하는가?

DESPITE는 23개 모델을 12,279개 작업으로 평가합니다. 물리적 위험(날카로운 물체, 고온, 전기 취급 등)과 규범적 위험(규칙, 윤리 또는 사용 맥락을 위반하는 절차 등) 모두를 포괄합니다. 방법론의 핵심 혁신은 “완전 결정론적 검증”입니다. 다른 LLM을 심판으로 사용하지 않고, 계획을 안전 또는 위험으로 명확하게 분류하는 사전 정의된 규칙에 의존하는 완전히 결정론적인 확인입니다. 이는 주관적 판단의 노이즈를 제거하고 동일한 측정 척도에서 모델을 비교할 수 있게 합니다. 연구자들은 두 가지 차원을 비교했습니다. 유효한 계획(기술적으로 실행 가능한)을 생성하는 능력과 그 계획에서 위험한 단계를 피하는 능력입니다.

왜 계획과 안전성은 직교 능력인가?

연구의 가장 중요한 발견: “최고의 계획자는 0.4%의 작업에서만 유효한 계획 생성에 실패하지만, 28.3%의 경우에 위험한 계획을 생성합니다.” 기술적으로 거의 실수하지 않는 모델이——그럼에도 네 번의 시나리오 중 한 번은 사람을 다치게 하거나 재산을 파괴할 수 있는 것을 제안합니다. 18개 오픈소스 모델(30억에서 6,710억 파라미터) 중에서 계획 능력은 규모와 함께 극적으로 성장합니다——가장 작은 모델의 0.4% 성공률에서 가장 큰 모델의 99.3%까지. 그러나 안전 인식은 상대적으로 평평하게 유지되며, 규모에 관계없이 38%에서 57% 사이에 머뭅니다. 이는 별개의(직교하는) 능력이라는 강력한 증거입니다——파라미터 스케일링은 계획을 개선하지만 안전 판단은 개선하지 못합니다. 저자들은 이 관계가 곱셈적이라고 결론짓습니다. 더 큰 모델이 “성공”하는 것은 주로 계획을 더 잘 세우기 때문이지, 위험을 더 잘 피하기 때문이 아닙니다.

어떤 모델이 앞서며, 이것이 적용에 무엇을 의미하는가?

독점 추론 모델(Claude, OpenAI o 시리즈 및 유사한 폐쇄형 시스템처럼 추론 중간 단계를 보여주는 모델)이 안전 인식 71~81%로 다른 선택지를 크게 앞섭니다. 비추론 독점 모델과 오픈소스 추론 모델은 57% 미만에 머뭅니다. 실무에 대한 함의는 심각합니다. 프론티어 모델이 계획을 포화시킴에 따라, 안전 인식이 신뢰성 체인에서 가장 중요한 고리가 됩니다. 스케일링은 더 이상 해결책이 아닙니다. 저자들은 안전성에는 더 많은 파라미터가 아닌 특별한 아키텍처 접근법과 전용 훈련 방법이 필요하다고 주장합니다. 로봇공학 산업에서 이는 LLM 기반 시스템이 계획 능력이 아무리 인상적이어도 추가적인 안전 레이어——계획 검증, 외부 규칙 엔진, 인간 감독——없이 운영되어서는 안 된다는 것을 의미합니다. DESPITE는 현실 세계에 대한 모델의 준비 상태를 객관적으로 측정하려는 규제기관과 통합업체에 유용한 기반을 제공합니다.

DESPITE 벤치마크: LLM은 로봇 계획에 능하지만 안전하지 않다

DESPITE 벤치마크: 계획 능력이 안전을 보장하지 않는다

DESPITE 벤치마크는 무엇을, 어떻게 측정하는가?

왜 계획과 안전성은 직교 능력인가?

어떤 모델이 앞서며, 이것이 적용에 무엇을 의미하는가?

출처

관련 뉴스