UK AISI开放五层结构的Engineering Playbook

Engineering Playbook是英国AI安全研究院（UK AISI）于2026年6月18日发布的开源文档，开放了评估前沿AI模型的内部基础设施。Playbook分为五层（Evaluate、Isolate、Connect、Run、Scale），基于早前开源的Inspect AI工具，该工具拥有200多个现成评估和240名贡献者。

英国AI安全研究院（UK AI Safety Institute，AISI）——英国政府AI安全机构——于2026年6月18日发布了 Engineering Playbook，这是一份关于评估前沿AI模型内部基础设施的开源文档。前沿模型是最先进的AI系统，其测试需要专门的基础设施来进行模型的隔离、运行和行为测量。

五层评估结构

Playbook分为五层：Evaluate（定义测试）、Isolate（安全隔离）、Connect（连接模型）、Run（运行）和Scale（扩展到更大工作负载）。该结构覆盖了从测试设计到开放权重模型计算基础设施的完整流程，为其他实验室和机构提供了经过验证的模板，无需从零开始构建自己的系统。

基于什么构建

Engineering Playbook 在 AISI 早前开源的评估框架 Inspect AI 基础上构建。通过 Inspect Evals 库，现有200多个现成评估，GitHub 仓库 inspect_ai 拥有 240名贡献者。与部分实验室封闭的内部系统不同，这一技术栈是公开的，任何评估模型的组织都可以采用。

谁已经在使用

以测量模型自主能力闻名的组织 METR 使用 Inspect 在前沿模型上运行 228个任务。Engineering Playbook 的发布降低了独立安全测试的门槛：研究人员无需昂贵的自有基础设施，即可获得有文档记录、可复现且开放的系统。相关材料可在 engineering-playbook.aisi.org.uk 查阅。

常见问题

什么是UK AISI的Engineering Playbook？

这是评估前沿模型的内部基础设施的开源文档，分为五层：Evaluate、Isolate、Connect、Run和Scale。

Playbook基于什么构建？

基于早前开源的评估框架Inspect AI，通过Inspect Evals库提供200多个现成评估，其GitHub仓库inspect_ai拥有240名贡献者。

谁已经在使用这个基础设施？

METR组织使用Inspect在前沿模型上运行228个任务。

UK AISI：Engineering Playbook以五层结构开放前沿模型评估基础设施

五层评估结构

基于什么构建

谁已经在使用

常见问题

来源

相关新闻