🟢 ⚖️ 监管 发布于: · 2 分钟阅读 ·

UK AISI: AI模型自主网络能力每4.7个月翻倍——Claude Mythos Preview和GPT-5.5首次攻克网络靶场

Editorial illustration: 网络安全指挥中心,带有AI智能体图标和能力增长基准图。

《自主AI网络能力进展速度如何?》是英国AI安全研究所(AISI)于2026年5月13日发布的新报告。通过测量网络时间范围基准(250万token预算,80%成功阈值),AISI确定AI模型自主解决的网络任务时长每4.7个月翻倍。Claude Mythos Preview是首个攻克两个网络靶场的模型(The Last Ones 60%,Cooling Tower 30%);GPT-5.5攻克The Last Ones达30%。

🤖

本文由人工智能基于一手来源生成。

英国AI安全研究所(AISI)于2026年5月13日发布报告,首次实证测量前沿AI模型自主网络能力的进展速度。主要发现:AI模型自主解决的网络任务时长自2026年2月起每4.7个月翻倍——且近期模型显著超越这一趋势。

什么是网络时间范围基准测试?

AISI开发了正式方法论,测量AI模型能自主完成的网络任务时长,与专家完成时间相比较。该方法使用:

  • 窄域网络套件,包含需要漏洞识别和利用的任务
  • 每任务250万token预算,确保跨不同模型的可比性
  • 80%成功率阈值用于可靠性测量
  • 两个模拟企业网络攻击的网络靶场

该方法类似于ARC-AGI风格的基准测试,但应用于安全领域而非通用推理。“4.7个月翻倍”数字是从2024年底开始对前沿模型进行纵向跟踪计算得出的。

测试了哪些前沿模型?

Claude Mythos Preview是首个攻克两个网络靶场的模型:

  • The Last Ones:60%成功率
  • Cooling Tower:30%成功率

GPT-5.5以30%成功率攻克The Last Ones。从2024年底到2026年初跟踪的其他模型呈现清晰进展——每个下一个前沿版本都将网络能力边界显著向前推进。

Claude Mythos和GPT-5.5在同一基准测试上的差异(The Last Ones上60% vs 30%)是重要信号——Anthropic Mythos Preview目前是针对防御性网络安全工作的受限研究预览,显然针对网络任务进行了专门调优。

“每4.7个月翻倍”在实践中意味着什么?

假设前沿模型目前能自主完成30分钟的网络任务(如利用已识别的一个漏洞)。轨迹:

  • 当前(2026年5月):30分钟
  • 2026年10月(+4.7个月):60分钟
  • 2027年2月(+9.4个月):120分钟
  • 2027年6月(+14.1个月):240分钟(4小时)
  • 2027年11月(+18.8个月):480分钟(8小时=完整工作日)

实际意义:18个月内,前沿AI将能自主执行需要专家人工一整天的网络任务。这超过了AI从”专家工具”转变为进攻性和防御性网络行动中”独立行为者”的门槛。

AISI强调哪些政策影响?

研究所明确强调,组织必须立即投资于强大的安全基线,因为快速进展为防御者和攻击者同时创造机遇和风险。具体建议:

  • 咨询英国国家网络安全中心(NCSC)关于AI辅助漏洞发现的指导
  • 实施不依赖于”AI无法做到”假设的纵深防御方法
  • 持续监控前沿AI能力进展以把握更新时机

在更广泛AI安全话语中的位置

此公告契合2026年戏剧性的智能体安全/可靠性浪潮:arXiv FATE(5月12日,33.5%攻击减少)、arXiv历史锚点(5月13日,91-98%不安全偏移)、arXiv讨好性共识(5月15日)、Microsoft Research AI委托(5月15日,19-34%性能下降)、arXiv GraphFlow(5月15日,形式验证方法)。UK AISI网络报告为相同根本问题增添了监管机构/国家层面视角:前沿AI系统具有当前对齐+安全方法无法保证阻断的新兴能力。

Anthropic Mythos Preview的状态(自2026年4月起为受限研究预览)是战略反射——Anthropic显然已认定防御性网络安全应用值得在访问限制和完全开放发布之间做出特殊权衡。UK AISI的结果为这一决定提供了实证依据。

常见问题

什么是网络时间范围基准测试?
网络时间范围基准测试衡量AI模型能自主完成的任务时长,与专家完成时间相比较;AISI使用包含漏洞识别和利用任务的窄域网络套件,每个任务250万token预算以确保跨模型可比性,80%成功阈值用于可靠性测量。
测试了哪些前沿模型?
Claude Mythos Preview是首个攻克两个网络靶场的模型——The Last Ones(60%成功率)和Cooling Tower(30%成功率);GPT-5.5以30%成功率攻克The Last Ones;从2024年底开始跟踪的其他模型呈现清晰进展。