UK AISI가 Engineering Playbook을 5개 레이어로 공개

Engineering Playbook은 UK AI Safety Institute가 2026년 6월 18일 발표한 오픈소스 문서로, 프런티어 AI 모델 평가를 위한 내부 인프라를 공개합니다. Playbook은 Evaluate, Isolate, Connect, Run, Scale의 5개 레이어로 구성되며, 200개 이상의 기성 평가와 240명의 기여자를 보유한 Inspect AI 도구를 기반으로 합니다.

영국 정부 AI 안전 기관인 **UK AI Safety Institute (AISI)**는 2026년 6월 18일 Engineering Playbook을 발표했습니다——프런티어 AI 모델 평가를 위한 내부 인프라의 오픈소스 문서입니다. 프런티어 모델은 가장 발전된 AI 시스템이며, 그 테스트에는 모델의 격리, 실행, 행동 측정을 위한 전문 인프라가 필요합니다.

5개 레이어의 평가 구조

Playbook은 5개 레이어로 구성됩니다: Evaluate(테스트 정의), Isolate(보안 격리), Connect(모델 연결), Run(실행), Scale(더 큰 워크로드로 확장). 이 구조는 테스트 설계부터 오픈 웨이트 모델의 컴퓨팅 인프라까지 전체 경로를 커버하여, 다른 연구소와 기관들이 자체 시스템을 처음부터 구축하지 않아도 되는 검증된 템플릿을 제공합니다.

무엇을 기반으로 합니까

Engineering Playbook은 AISI가 이전에 오픈소스로 공개한 평가 프레임워크 Inspect AI를 기반으로 합니다. Inspect Evals 라이브러리를 통해 200개 이상의 기성 평가를 이용할 수 있으며, GitHub 저장소 inspect_ai에는 240명의 기여자가 있습니다. 일부 연구소의 폐쇄적인 내부 시스템과 달리 이 스택은 공개되어 있으며 모델을 테스트하는 모든 조직이 채택할 수 있습니다.

누가 이미 사용하고 있습니까

모델의 자율 능력 측정으로 알려진 조직 METR이 Inspect를 사용하여 프런티어 모델에서 228개의 작업을 실행합니다. Engineering Playbook 발표는 독립적인 보안 테스트의 진입 장벽을 낮춥니다: 값비싼 자체 인프라 없이도 연구자들이 문서화되고 재현 가능하며 개방적인 시스템을 이용할 수 있습니다. 자료는 engineering-playbook.aisi.org.uk에서 확인할 수 있습니다.

자주 묻는 질문

UK AISI의 Engineering Playbook이란 무엇입니까?

프런티어 모델 평가를 위한 내부 인프라의 오픈소스 문서로, Evaluate, Isolate, Connect, Run, Scale 5개 레이어로 구성됩니다.

Playbook은 무엇을 기반으로 합니까?

이전에 오픈소스로 공개된 평가 프레임워크 Inspect AI를 기반으로 하며, Inspect Evals 라이브러리를 통해 200개 이상의 기성 평가를 제공합니다. GitHub 저장소 inspect_ai에는 240명의 기여자가 있습니다.

누가 이미 이 인프라를 사용합니까?

METR 조직이 Inspect를 사용하여 프런티어 모델에서 228개의 작업을 실행합니다.

UK AISI：Engineering Playbook으로 프런티어 모델 평가 인프라를 5개 레이어로 공개

5개 레이어의 평가 구조

무엇을 기반으로 합니까

누가 이미 사용하고 있습니까

자주 묻는 질문

출처

관련 뉴스