UK AI Safety Institute:先进AI系统的监管愈发困难 — 识别出20余条退化路径
UK AI Safety Institute(AISI)于2026年5月21日发布报告,基于对行业、政府和学界25位专家的访谈,分析了先进AI系统监管的未来。核心结论是:现有监管建立在可能逐步瓦解的基础之上。报告识别出20余条监管机制退化路径,重点关注潜在推理、能力遮蔽、外部AI行动及AI间通信四大领域。
25 条新闻
UK AI Safety Institute(AISI)于2026年5月21日发布报告,基于对行业、政府和学界25位专家的访谈,分析了先进AI系统监管的未来。核心结论是:现有监管建立在可能逐步瓦解的基础之上。报告识别出20余条监管机制退化路径,重点关注潜在推理、能力遮蔽、外部AI行动及AI间通信四大领域。
欧盟委员会于2026年5月13日就《欧盟人工智能法》高风险AI系统分类指南草案启动专项公众咨询。咨询截止时间为5月22日中欧时间18时,指南将直接决定医疗、教育、关键基础设施及人力资源领域的哪些组织须满足最严格的监管要求。
Google DeepMind与新加坡政府签署国家AI合作协议,覆盖医疗、教育与可持续发展领域。预计到2040年,AI的应用将通过加速研发为新加坡经济额外带来25亿美元的增长。
OpenAI正式进入「Education for Countries」全球教育计划第二阶段——扩大与各国政府的合作,推出OpenAI Luminaries教师参与项目,并通过OpenAI Academy颁发AI认证。目标是将AI工具系统性融入国家教育体系,并以可量化的方式评估实际效果。
OECD.AI和EU AI Office记录了欧洲在四个战略领域部署AI的情况:农业、医疗、工业和交通。Robs4Crops、欧洲癌症影像计划和AI4Cities等项目已在进行中,但数据碎片化和数字技能不足阻碍了更广泛的应用。
欧洲委员会就定义AI系统何时属于「高风险」类别的指南草案启动了公开征询。利益相关方——从开发者到公民社会——可在2026年6月23日22:00 CET之前提交反馈意见。
《自主AI网络能力进展速度如何?》是英国AI安全研究所(AISI)于2026年5月13日发布的新报告。通过测量网络时间范围基准(250万token预算,80%成功阈值),AISI确定AI模型自主解决的网络任务时长每4.7个月翻倍。Claude Mythos Preview是首个攻克两个网络靶场的模型(The Last Ones 60%,Cooling Tower 30%);GPT-5.5攻克The Last Ones达30%。
Anthropic Research 2028 AI领导力情景报告于2026年5月14日发布,描述了到2028年AI主导权的两种地缘政治情景。情景一:美国民主国家通过出口管制和模型防御保持12至24个月领先优势。情景二:中国通过蒸馏攻击和价值25亿美元的超微电脑式芯片走私实现技术持平。Anthropic建议封堵漏洞、推进防御性立法并拓展美国AI出口。
Fine-Tuning FLOPs Meter 工具包是 AWS SageMaker AI 的新扩展,于 2026 年 5 月 12 日发布,在 LLM 微调过程中自动跟踪欧盟 AI 法案的计算阈值(3.3×10²² FLOPs;系统性风险阈值 3.3×10²⁴)。通过在 recipe YAML 中设置 compute_flops=true 标志即可启用,并自动在 S3 和 DynamoDB 中生成审计文档。
欧盟委员会发布了AI法案透明度义务指南草案,并启动公众咨询,截止日期为2026年6月3日。义务将于2026年8月2日生效。提供商必须使用机器可读标记标注AI生成内容,并告知用户其与AI系统的交互情况。
欧盟委员会、欧洲议会和欧盟理事会就「数字综合一揽子计划」达成政治协议,该计划简化了《人工智能法》的执行,并明确禁止深度伪造裸照应用程序。高风险人工智能系统将自2027年12月2日起适用,集成于产品中的人工智能则自2028年8月2日起适用。
新研究表明,临床LLM的安全性与准确性不遵循相同的缩放定律——RAG中更清晰的证据将准确率从73.5%提升至94.1%,高风险错误从12%降至2.6%,效果优于增大模型规模。
英国 AI 安全研究所于 5 月 5 日宣布与 Microsoft 开展前沿 AI 安全合作。合作涵盖三个研究领域:高风险能力评估、防护措施测试以及对话式 AI 社会韧性研究。
NIST人工智能标准与创新中心(CAISI)于2026年5月5日与谷歌DeepMind、微软和xAI签署了扩展协议,用于前沿模型的部署前和部署后测试。CAISI迄今已开展40余次评估,包括对未公开的最先进模型的测试,相关工作在移除安全限制措施的保密环境中常规进行。
LangChain发布了关于LangSmith和LangChain OSS如何覆盖欧盟AI法案关键条款的详细指南——从风险管理(第9条)到市场后监控(第72条)。高风险AI系统的合规截止日期为2026年8月2日,罚款最高可达1500万欧元或全球年营业额的3%。
OpenAI于2026年4月27日宣布获得ChatGPT Enterprise和OpenAI API的FedRAMP Moderate授权,从而开放了美国联邦机构在合规层面安全采用生成式AI技术的可能性,覆盖敏感的非保密数据。
Chris Schneider、Philipp Schoenegger和Ben Bariach于2026年4月23日发表了论文《Separable Expert Architecture》,解决了个性化LLM面临的最大GDPR难题:如何在不重新训练整个模型的情况下删除单个用户的数据。三层架构(静态基础模型、可组合LoRA适配器、每用户代理构件)将数据遗忘转化为确定性删除操作。在Phi-3.5-mini和Llama-3.1-8B上进行了评估。
Google DeepMind与韩国科学技术信息通信部(MSIT)于2026年4月27日宣布建立合作伙伴关系,旨在加速科学发现与AI创新。合作内容包括在首尔成立AI园区、向学术机构开放AlphaFold和AlphaGenome等先进AI工具,以及与韩国AI安全研究院在安全领域展开合作。
欧盟委员会开放了价值600万欧元的DIGITAL-2026-BESTUSE-AWARENESS征集通知,用于建立对抗操纵性AI内容的联合研究框架。该征集是2025年11月宣布的欧洲民主盾牌的落地举措,申请截止日期为2026年10月1日。
欧洲委员会通过数字欧洲计划开放了七项征集,总价值6320万欧元。资金用于医疗健康领域的AI创新(癌症、心脏病)、儿童网络安全以及监管机构工具,是更广泛的AI大陆行动计划的组成部分。
AISafetyBenchExplorer是一个结构化目录,记录了2018年至2026年间发布的195个AI安全基准。研究揭示了该领域令人担忧的碎片化现象——「准确率」和「安全评分」等术语掩盖了截然不同的方法论。在195个基准中,多达165个仅评估英语,137个GitHub存储库处于不活跃状态,表明发布后缺乏维护。
OECD分析了英国的算法透明度记录标准(ATRS),该标准自2025年起对中央政府具有强制性。截至2025年3月,已发布125条算法使用记录。爱沙尼亚已采纳该标准,OECD称其为'世界领先'。
Anthropic 宣布通过长期公益信托(Long-Term Benefit Trust)任命诺华 CEO Vas Narasimhan 进入董事会。LTBT 任命的董事现已占据董事会多数席位,从而加强了对公司安全使命的监督。
研究人员 Tibebu 证明了一个形式化的不可能性结果:在 AI 代理自主性的某个阈值之上,在结合人类和 AI 的系统中,问责性的所有四个属性不能同时成立。
欧盟委员会在AI Continent Action Plan启动一周年之际公布成果:19家AI工厂已部署于欧洲超级计算机之上,13个区域性AI Factory天线提供本地访问渠道,并为Apply AI Strategy倡议拨款10亿欧元。