DESPITE基准测试:LLM规划机器人任务效果好,但不安全
为什么重要
新的DESPITE基准测试对23个语言模型进行了12,279个机器人规划任务的评估。结果:最佳规划器仅在0.4%的情况下失败,但会产生28.3%的危险计划。规划能力和安全性是正交能力——模型扩展并不能解决安全缺陷。
DESPITE基准测试:规划能力不保证安全性
研究团队发布了DESPITE基准测试——对机器人任务规划背景下语言模型安全性的最大规模系统评估。研究发现揭示了一个令人不安的模式:模型成为了出色的规划者,却对危险漠不关心。
DESPITE基准测试测量什么以及如何测量?
DESPITE对23个模型进行了12,279个任务的评估,涵盖物理危险(如处理锋利物体、高温、电力)和规范危险(如违反规则、道德或使用背景的程序)。方法论的关键创新是”完全确定性验证”——这种完全确定性检查不依赖另一个LLM作为评判,而是依赖预先定义的规则,这些规则明确地将计划分类为安全或危险。这消除了主观判断的噪声,并使模型在同一测量尺度上进行比较成为可能。研究人员比较了两个维度:生成有效计划(技术上可行的)的能力和避免计划中危险步骤的能力。
为什么规划和安全性是正交能力?
研究最重要的发现:“最佳规划器仅在0.4%的任务中无法产生有效计划,但在28.3%的情况下会产生危险计划。“因此,几乎从不出技术错误的模型——仍然在每四个场景中就有一个提出可能伤害人或损毁财产的建议。在18个开源模型(从30亿到6710亿参数)中,规划能力随规模急剧增长——从最小模型的0.4%成功率到最大模型的99.3%。然而安全意识保持相对平稳,无论规模如何,始终在38%到57%之间。这是规划和安全性是独立(正交)能力的有力证据——参数扩展可以提升规划能力,但不能提升安全判断。作者得出结论,这种关系是乘法性的:更大的模型”成功”主要是因为它们规划得更好,而不是因为它们更好地避免危险。
哪些模型表现突出,这对应用意味着什么?
专有推理模型(那些展示推理中间步骤的模型,如Claude、OpenAI o系列和类似封闭系统)以71-81%的安全意识显著优于其他选项。非推理的专有模型和开源推理模型保持在57%以下。对实践的影响是严肃的:随着前沿模型使规划趋于饱和,安全意识成为可靠性链中最重要的环节。扩展不再是解决方案。作者认为安全性需要特殊的架构方法和专门的训练方法,而不仅仅是更多参数。对于机器人行业,这意味着基于LLM的系统不应该在没有额外安全层的情况下运行——计划验证、外部规则引擎和人工监督——无论它们的规划能力多么令人印象深刻。DESPITE为希望客观衡量模型现实世界准备情况的监管机构和集成商提供了有用的基础。
本文由人工智能基于一手来源生成。