NIST CAISI proširio frontier AI national security testiranje na Google DeepMind, Microsoft i xAI
NIST Center for AI Standards and Innovation (CAISI) sklopio je 5. svibnja 2026. proširene sporazume s Google DeepMindom, Microsoftom i xAI-jem za pre-deployment i post-deployment testiranje frontier modela. CAISI je dosad proveo više od 40 evaluacija, uključujući neobjavljene state-of-the-art modele, a testiranja se rutinski izvode u klasificiranim okruženjima s uklonjenim safeguardima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
NIST-ov Center for AI Standards and Innovation (CAISI) objavio je 5. svibnja 2026. da je sklopio proširene kolaboracijske sporazume s Google DeepMindom, Microsoftom i xAI-jem za testiranje frontier AI modela u kontekstu nacionalne sigurnosti. Novi sporazumi nadograđuju ranije ugovore CAISI-ja s Anthropicom i OpenAI-jem iz kolovoza 2024., čime američka vlada sada ima formalne evaluacijske aranžmane sa svih pet vodećih frontier labova u SAD-u.
Što sporazumi konkretno pokrivaju?
Sporazumi pokrivaju pre-deployment evaluacije (prije javnog releasea modela) i post-deployment istraživanje (analiza modela koji su već na tržištu). CAISI je do danas proveo više od 40 evaluacija — uključujući procjene neobjavljenih state-of-the-art modela koje labovi dostavljaju u testiranje prije nego što ih lansiraju.
Tehnički okvir sporazuma omogućuje labovima da modele isporuče s “reduciranim ili uklonjenim safeguardima” (npr. content filteri, refuzalni layeri), kako bi CAISI mogao mjeriti stvarne capability granice modela bez interferencije sigurnosnih guardrailova. Testiranja se rutinski izvode u klasificiranim okruženjima s međuagencijskim ekspertima koji djeluju kroz TRAINS Taskforce — koordinacijsko tijelo osnovano u studenom 2024. za usklađivanje AI istraživanja s nacionalnom sigurnošću.
Kako izjava direktora oblikuje strateški kontekst?
Chris Fall, direktor CAISI-ja, sažeo je svrhu sporazuma: “Independent, rigorous measurement science is essential to understanding frontier AI and its national security implications.” Citat naglašava da je CAISI-jev mandat metrička, ne policy-aktivnost — cilj je objektivno izmjeriti capability prag modela, a ne diktirati uvjete pristupa tržištu.
Sporazumi su strukturirani fleksibilno — uključuju klauzule koje dopuštaju brzi response na buduće AI advancement-e bez potrebe ponovnog pregovaranja. Rezultati testova ostaju u klasificiranom kanalu, ali NIST povratno surađuje s labovima na voluntary product improvements i razmjeni informacija o međunarodnoj kompetitivnosti.
Zašto je ovo prekretnica za frontier AI regulaciju?
Konsolidacija svih pet vodećih američkih frontier labova (Anthropic, OpenAI, Google DeepMind, Microsoft, xAI) pod jedinstveni državni evaluacijski okvir je strukturna promjena. Do prije 18 mjeseci, vladine evaluacije AI modela bile su ad-hoc i temeljile su se na voluntary disclosure-u. CAISI sada postaje de facto nacionalna laboratorija za frontier AI assessment.
Praktične posljedice za industriju: labovi sada moraju održavati klasificirane testne pipeline-e, dokumentirati capability claims na način koji je verifikabilan kroz CAISI metodologiju, i očekivati pre-release government review za ekstreme capability bumpove. Za EU AI Office i UK AI Safety Institute, ovo je referentni model — formalna pre-deployment testna obveza s mehanizmom za “removed safeguards” testiranje koji EU AI Act članak 51 (general-purpose models with systemic risk) još nije operacionalizirao na ovoj razini detaljnosti.
Česta pitanja
- Što je CAISI i koje kompanije sad pokriva?
- CAISI (Center for AI Standards and Innovation) je NIST-ov centar koji nakon novih sporazuma od 5. svibnja 2026. ima evaluacijske aranžmane sa svih pet vodećih američkih frontier AI labova: Anthropic, OpenAI, Google DeepMind, Microsoft i xAI.
- Koliko je evaluacija CAISI dosad proveo?
- CAISI je dosad proveo više od 40 evaluacija frontier modela, uključujući neobjavljene state-of-the-art modele s reduciranim ili uklonjenim safeguardima. Testiranja se izvode u klasificiranim okruženjima kroz TRAINS Taskforce.
- Koja je razlika između pre-deployment i post-deployment testiranja?
- Pre-deployment testiranje provodi se prije javnog izlaska modela kako bi se evaluirale national security implikacije, dok post-deployment istraživanje analizira modele u stvarnoj upotrebi. Oba pristupa pokrivena su novim CAISI sporazumima.
Povezane vijesti
LangChain i LangSmith ciljaju EU AI Act: alati za sukladnost prema člancima 9, 10, 12-15 i 72 do roka 2. kolovoza 2026.
OpenAI dobio FedRAMP Moderate autorizaciju: ChatGPT Enterprise i API otvoreni za sigurno usvajanje u američkim federalnim agencijama
arXiv:2604.21571 'Separable Expert': arhitektura za LLM personalizaciju koja omogućuje GDPR pravo na zaborav bez retreniranja