🔴 🛡️ 安全 2026年5月1日星期五 · 2 分钟阅读 ·

AISI评估GPT-5.5网络能力:专家级CTF任务71.4%成功率,rust_vm逆向工程10分钟完成(人类需12小时)

编辑插图:暗色场景中显示网络拓扑和安全工具的终端控制台

英国AI安全研究院(AISI)于2026年4月30日发布了针对OpenAI GPT-5.5模型的网络安全评估报告,涵盖95个CTF任务和两次模拟网络攻击。GPT-5.5在专家级任务中达到71.4%成功率(史上最高),是第二个完整完成32步企业网络攻击模拟的模型,并以10分22秒、花费1.73美元API费用解决了专家需12小时的自定义VM逆向工程挑战。

英国AI安全研究院(AISI)于2026年4月30日发布了针对OpenAI GPT-5.5模型的详细网络安全评估报告。这是迄今为止任何模型在AISI网络安全套件上的最强表现,也是继4月Anthropic的Claude Mythos Preview之后,第二个从头到尾完成32步企业网络攻击模拟的前沿模型。AISI将此解读为:上一次突破并非单一模型的孤立现象,而是跨越不同开发团队的趋势。

AISI网络安全任务是如何构成的?

测试套件包含95个细分网络任务,分四个难度级别。基础套件涵盖基本CTF技能——从数据包捕获中恢复flag、对错误使用的密码进行密码分析、对小型二进制文件进行逆向工程——模型自2026年2月起已”饱和”该级别。高级套件与Crystal Peak Security和Irregular公司合作开发,针对使用现代防护措施的真实目标:去符号化的二进制文件、无源代码的嵌入式固件、栈/堆溢出漏洞利用编写、填充预言和nonce复用攻击、TOCTOU竞争条件、混淆恶意软件解包以及发现开源软件中植入的合成漏洞。

GPT-5.5的具体数字表现如何?

在专家级任务中,GPT-5.5的平均通过率为71.4%(±8.0%),领先于Anthropic Mythos Preview(68.6% ±8.7%)、GPT-5.4(52.4% ±9.8%)和Claude Opus 4.7(48.6% ±10.0%)。测量在50M token预算下进行,涵盖27个实践者级任务和21个专家级任务。AISI明确指出,按此标准GPT-5.5可能是他们测试过的最强模型。

rust_vm挑战揭示了AI网络能力的什么?

最引人注目的发现是Crystal Peak Security提供的rust_vm任务。它由一个实现自定义虚拟机的去符号化Rust ELF二进制文件和另一个存储8080端口身份验证逻辑的未知格式字节码文件组成。解决它需要对Rust宿主中的VM进行逆向工程(发现操作码、操作数解码模式、PC语义)、构建反汇编器、破解密码检查逻辑并最终提交密码。Crystal Peak的专家测试员使用Binary Ninja、gdb、Python和Z3求解器花了12小时完成。GPT-5.5在10分22秒内完成了任务,无需人工辅助,花费1.73美元API费用,使用Kali Linux容器中基本的ReAct代理框架配合Bash和Python工具。

这对安全行业意味着什么?

AISI认为,目前来自两个不同开发团队的双边证据——Mythos Preview和GPT-5.5——已足以判断这是一种趋势,而非孤立案例。两个来自不同团队的模型在网络安全评估中达到了相似的天花板,这表明行业将面临漏洞研究速度和成本方面的结构性变化。如果一个模型花1.73美元和十分钟就能达到专家12小时加专业工具的结果,进攻性和防御性网络工作的经济性就会重叠,AISI呼吁行业和监管机构认真对待这一现实。

常见问题

什么是AISI网络安全任务?
一套包含95个CTF任务的测试套件,分四个难度级别,测试漏洞研究、逆向工程、Web漏洞利用和密码学能力。高级套件(实践者级和专家级)与Crystal Peak Security和Irregular公司合作开发,针对使用现代防护措施的真实目标。
GPT-5.5与其他模型相比如何?
在专家级任务中,GPT-5.5平均通过率为71.4%(±8.0%),领先于Mythos Preview(68.6% ±8.7%)、GPT-5.4(52.4% ±9.8%)和Claude Opus 4.7(48.6% ±10.0%)。按此标准,GPT-5.5是AISI测试过的最强模型。
rust_vm挑战是什么,为何意义重大?
这是一个自定义虚拟机逆向工程任务,攻击者需重建VM、构建反汇编器并破解身份验证逻辑。Crystal Peak专家使用Binary Ninja、gdb、Python和Z3需12小时完成。GPT-5.5在10分22秒内、花费1.73美元无需人工辅助便完成了任务。
🤖

本文由人工智能基于一手来源生成。