智能体红队测试：对Llama Scout成功率85%

新论文提出了一个基于Dreadnode SDK构建的智能体红队测试系统，集成45+种攻击、450+种变换和130+种评分器，对Meta Llama Scout的攻击成功率达85%，将安全测试时间从数周缩短至数小时，无需手写任何代码。

这篇来自arXiv的新论文描述了一种完全自动化AI模型攻击性安全测试的系统。作者Raja Sekhar Rao Dheekonda、Will Pearce和Nick Landers展示了基于Dreadnode SDK构建的智能体方法如何改变红队测试的经济模式——此前需要数周专业工作的安全测试，现在可在数小时内完成，且无需手写任何攻击代码。

智能体如何取代数周的手动工作？

红队测试（Red Teaming）在安全领域是指专家系统性地寻找模型弱点的过程——从对抗样本到越狱提示和多模态攻击。传统方式由团队手动逐一组建和执行攻击。

所提系统改为使用包含45+种攻击、450+种变换和130+种评分器的目录，由智能体自主组合。操作员通过终端用户界面以自然语言设定目标，智能体自行选择攻击向量、应用变体并评估结果。

针对Llama Scout的测试数据说明了什么？

在对Meta的Llama Scout模型进行评估时，智能体实现了85%的攻击成功率，内部评分器将最高严重程度评定为1.0。从设定目标到生成完整报告的整个周期，按时间量级计算为数小时，而非同等测试规模下以往惯例的数周。

关键在于智能体在没有人工编写代码的情况下运行：整个对抗工作流从现有组件中生成，从而消除了行业长期严重短缺的专业红队工程师这一瓶颈。

这对安全团队意味着什么？

该智能体框架在一个统一系统中同时涵盖传统ML对抗样本和生成式AI越狱——这在此前通常需要多种不同工具来分头处理。对于必须持续评估新模型的企业安全团队和AI实验室而言，这意味着测试频率可以大幅提升。

这项研究属于将智能体自动化应用于安全领域的研究浪潮，类似于SOC分析师此前开始使用AI助手进行事件分类。目前仍是开放问题：这些结果能在多大程度上迁移至具有不同安全过滤机制的闭源商业模型——Llama Scout是开放权重的目标模型，支持在仅提供API的模型上无法实现的详细仪器化测量。

常见问题

AI系统中的红队测试是什么？

红队测试（Red Teaming）是指在真实攻击者利用漏洞之前，对AI系统进行受控攻击以发现安全缺陷的过程——涵盖经典的对抗样本到越狱提示等各类攻击手段。

智能体与手动红队测试有何不同？

操作员通过终端用户界面以自然语言设定目标，智能体自主从Dreadnode目录中组合攻击、变换和评分器；无需手动组建工作流，也无需编写自定义代码。

85%的攻击成功率意味着什么？

在85%的测试攻击场景中，智能体成功诱发了Meta Llama Scout模型的非预期行为，且系统评分器将最高严重程度评定为1.0。

arXiv:2605.04019: 自动化红队测试智能体对Meta Llama Scout攻击成功率达85%，含45+种攻击和450+种变换

智能体如何取代数周的手动工作？

针对Llama Scout的测试数据说明了什么？

这对安全团队意味着什么？

常见问题

来源

相关新闻