UK AISI:Engineering Playbook以五层结构开放前沿模型评估基础设施
Engineering Playbook是英国AI安全研究院(UK AISI)于2026年6月18日发布的开源文档,开放了评估前沿AI模型的内部基础设施。Playbook分为五层(Evaluate、Isolate、Connect、Run、Scale),基于早前开源的Inspect AI工具,该工具拥有200多个现成评估和240名贡献者。
本文由人工智能基于一手来源生成。
英国AI安全研究院(UK AI Safety Institute,AISI)——英国政府AI安全机构——于2026年6月18日发布了 Engineering Playbook,这是一份关于评估前沿AI模型内部基础设施的开源文档。前沿模型是最先进的AI系统,其测试需要专门的基础设施来进行模型的隔离、运行和行为测量。
五层评估结构
Playbook分为五层:Evaluate(定义测试)、Isolate(安全隔离)、Connect(连接模型)、Run(运行)和Scale(扩展到更大工作负载)。该结构覆盖了从测试设计到开放权重模型计算基础设施的完整流程,为其他实验室和机构提供了经过验证的模板,无需从零开始构建自己的系统。
基于什么构建
Engineering Playbook 在 AISI 早前开源的评估框架 Inspect AI 基础上构建。通过 Inspect Evals 库,现有200多个现成评估,GitHub 仓库 inspect_ai 拥有 240名贡献者。与部分实验室封闭的内部系统不同,这一技术栈是公开的,任何评估模型的组织都可以采用。
谁已经在使用
以测量模型自主能力闻名的组织 METR 使用 Inspect 在前沿模型上运行 228个任务。Engineering Playbook 的发布降低了独立安全测试的门槛:研究人员无需昂贵的自有基础设施,即可获得有文档记录、可复现且开放的系统。相关材料可在 engineering-playbook.aisi.org.uk 查阅。
常见问题
- 什么是UK AISI的Engineering Playbook?
- 这是评估前沿模型的内部基础设施的开源文档,分为五层:Evaluate、Isolate、Connect、Run和Scale。
- Playbook基于什么构建?
- 基于早前开源的评估框架Inspect AI,通过Inspect Evals库提供200多个现成评估,其GitHub仓库inspect_ai拥有240名贡献者。
- 谁已经在使用这个基础设施?
- METR组织使用Inspect在前沿模型上运行228个任务。