UK AISI:Engineering Playbookでフロンティアモデル評価インフラを5層構造で公開
Engineering PlaybookはUK AI Safety Instituteが2026年6月18日に公開したオープンソースドキュメントで、フロンティアAIモデルを評価するための内部インフラを公開しています。PlaybookはEvaluate、Isolate、Connect、Run、Scaleの5層で構成され、200以上の既成評価と240名のコントリビューターを持つInspect AIツールを基盤としています。
この記事はAIにより一次情報源から生成されました。
英国政府の AI 安全機関 UK AI Safety Institute(AISI) は2026年6月18日、Engineering Playbook を公開しました——フロンティア AI モデルを評価するための内部インフラのオープンソースドキュメントです。フロンティアモデルは最も高度な AI システムであり、そのテストにはモデルの隔離、実行、動作測定のための専門インフラが必要です。
5層の評価構造
Playbook は5層で構成されています:Evaluate(テスト定義)、Isolate(安全隔離)、Connect(モデルへの接続)、Run(実行)、Scale(より大きな作業負荷へのスケーリング)。この構造はテスト設計からオープンウェイトモデルの計算インフラまでの全過程をカバーし、他のラボや機関に対して、ゼロから自前のシステムを構築する必要がない検証済みテンプレートを提供します。
何の上に構築されているか
Engineering Playbook は AISI が以前に公開した評価フレームワーク Inspect AI を基盤としています。Inspect Evals ライブラリを通じて 200以上の既成評価 が利用可能であり、GitHub リポジトリ inspect_ai には 240名のコントリビューターがいます。一部のラボの閉鎖的な内部システムとは異なり、このスタックは公開されており、モデルをテストするあらゆる組織が採用できます。
誰がすでに使っているか
モデルの自律能力の測定で知られる組織 METR は、Inspect を使用してフロンティアモデルで 228のタスクを実行しています。Engineering Playbook の公開は独立したセキュリティテストの参入障壁を下げます:コストのかかる自前インフラなしに、研究者はドキュメント化された、再現可能でオープンなシステムを入手できます。資料は engineering-playbook.aisi.org.uk で公開されています。
よくある質問
- UK AISIのEngineering Playbookとは何ですか?
- フロンティアモデルを評価するための内部インフラのオープンソースドキュメントで、Evaluate、Isolate、Connect、Run、Scaleの5層で構成されています。
- PlaybookはAISIの何の上に構築されていますか?
- 以前に公開された評価フレームワークInspect AIを基盤とし、Inspect Evalsライブラリを通じて200以上の既成評価を提供。GitHubリポジトリinspect_aiには240名のコントリビューターがいます。
- 誰がすでにこのインフラを使っていますか?
- METR組織がInspectを使用してフロンティアモデルで228のタスクを実行しています。