UK AISI: Engineering Playbook otvara infrastrukturu za evaluaciju frontier modela u pet slojeva
Engineering Playbook je open-source dokumentacija koju je UK AI Safety Institute objavio 18. lipnja 2026. i koja otvara internu infrastrukturu za evaluaciju frontier AI modela. Playbook je strukturiran u pet slojeva (Evaluate, Isolate, Connect, Run, Scale) i gradi na ranije otvorenom alatu Inspect AI koji ima preko 200 gotovih evaluacija i 240 kontributora.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
UK AI Safety Institute (AISI), britanska državna agencija za sigurnost umjetne inteligencije, objavio je 18. lipnja 2026. Engineering Playbook — open-source dokumentaciju vlastite infrastrukture za evaluaciju frontier modela. Frontier modeli su najnapredniji AI sustavi, a njihovo testiranje zahtijeva specijaliziranu infrastrukturu za izolaciju, pokretanje i mjerenje ponašanja modela.
Pet slojeva evaluacije
Playbook je strukturiran u pet slojeva: Evaluate (definiranje testova), Isolate (sigurnosna izolacija), Connect (povezivanje s modelima), Run (pokretanje) i Scale (skaliranje na veće radne opterećenje). Struktura pokriva cijeli put od osmišljavanja testa do compute infrastrukture za open-weight modele, pa drugim laboratorijima i agencijama daje provjeren predložak umjesto da grade vlastiti sustav od nule.
Na čemu gradi
Engineering Playbook nadovezuje se na Inspect AI, AISI-jev evaluacijski okvir koji je institut ranije otvorio. Kroz biblioteku Inspect Evals dostupno je preko 200 gotovih evaluacija, a repozitorij inspect_ai na GitHubu ima 240 kontributora. Za razliku od zatvorenih internih sustava pojedinih laboratorija, ovaj je stack javan i može ga preuzeti bilo koja organizacija koja testira modele.
Tko ga već koristi
Organizacija METR, poznata po mjerenju autonomnih sposobnosti modela, pokreće 228 zadataka na frontier modelima koristeći Inspect. Objava Playbooka snižava prag ulaska za nezavisno testiranje sigurnosti: umjesto skupe vlastite infrastrukture, istraživači dobivaju dokumentiran, reproducibilan i otvoren sustav. Materijal je dostupan na adresi engineering-playbook.aisi.org.uk.
Česta pitanja
- Što je Engineering Playbook UK AISI-ja?
- To je open-source dokumentacija interne infrastrukture za evaluaciju frontier modela, strukturirana u pet slojeva: Evaluate, Isolate, Connect, Run i Scale.
- Na čemu Playbook gradi?
- Gradi na ranije otvorenom alatu Inspect AI, koji kroz Inspect Evals nudi preko 200 gotovih evaluacija i ima 240 kontributora na GitHubu.
- Tko već koristi tu infrastrukturu?
- Organizacija METR pokreće 228 zadataka na frontier modelima koristeći Inspect.
Povezane vijesti
arXiv:2606.20517: Multi-LCB proširuje LiveCodeBench na 12 programskih jezika i otkriva Python overfitting kod 24 modela
Black Forest Labs: Robin Rombach poziva G7 lidere na podršku otvorenom razvoju AI-a
Allen Institute: Open-source MolmoMotion predviđa 3D kretanje iz videa i postavlja SOTA u robotici