🟡 📦 开源 发布于: · 1 分钟阅读 ·

UK AISI:Engineering Playbook以五层结构开放前沿模型评估基础设施

编辑插图:五层叠放的基础设施层,带有安全防护图标

Engineering Playbook是英国AI安全研究院(UK AISI)于2026年6月18日发布的开源文档,开放了评估前沿AI模型的内部基础设施。Playbook分为五层(Evaluate、Isolate、Connect、Run、Scale),基于早前开源的Inspect AI工具,该工具拥有200多个现成评估和240名贡献者。

🤖

本文由人工智能基于一手来源生成。

英国AI安全研究院(UK AI Safety Institute,AISI)——英国政府AI安全机构——于2026年6月18日发布了 Engineering Playbook,这是一份关于评估前沿AI模型内部基础设施的开源文档。前沿模型是最先进的AI系统,其测试需要专门的基础设施来进行模型的隔离、运行和行为测量。

五层评估结构

Playbook分为五层:Evaluate(定义测试)、Isolate(安全隔离)、Connect(连接模型)、Run(运行)和Scale(扩展到更大工作负载)。该结构覆盖了从测试设计到开放权重模型计算基础设施的完整流程,为其他实验室和机构提供了经过验证的模板,无需从零开始构建自己的系统。

基于什么构建

Engineering Playbook 在 AISI 早前开源的评估框架 Inspect AI 基础上构建。通过 Inspect Evals 库,现有200多个现成评估,GitHub 仓库 inspect_ai 拥有 240名贡献者。与部分实验室封闭的内部系统不同,这一技术栈是公开的,任何评估模型的组织都可以采用。

谁已经在使用

以测量模型自主能力闻名的组织 METR 使用 Inspect 在前沿模型上运行 228个任务。Engineering Playbook 的发布降低了独立安全测试的门槛:研究人员无需昂贵的自有基础设施,即可获得有文档记录、可复现且开放的系统。相关材料可在 engineering-playbook.aisi.org.uk 查阅。

常见问题

什么是UK AISI的Engineering Playbook?
这是评估前沿模型的内部基础设施的开源文档,分为五层:Evaluate、Isolate、Connect、Run和Scale。
Playbook基于什么构建?
基于早前开源的评估框架Inspect AI,通过Inspect Evals库提供200多个现成评估,其GitHub仓库inspect_ai拥有240名贡献者。
谁已经在使用这个基础设施?
METR组织使用Inspect在前沿模型上运行228个任务。