NIST CAISI weitet KI-Tests auf DeepMind, MSFT, xAI aus

Am 5. Mai 2026 schloss das NIST Center for AI Standards and Innovation (CAISI) erweiterte Vereinbarungen mit Google DeepMind, Microsoft und xAI für Pre- und Post-Deployment-Tests von Frontier-Modellen ab. CAISI hat bislang mehr als 40 Evaluierungen durchgeführt, darunter unveröffentlichte Spitzenmodelle, und führt Tests routinemäßig in klassifizierten Umgebungen mit entfernten Schutzmaßnahmen durch.

Das NIST Center for AI Standards and Innovation (CAISI) gab am 5. Mai 2026 bekannt, erweiterte Kooperationsvereinbarungen mit Google DeepMind, Microsoft und xAI für das Testen von Frontier-KI-Modellen im Kontext der nationalen Sicherheit abgeschlossen zu haben. Die neuen Vereinbarungen bauen auf früheren Verträgen von CAISI mit Anthropic und OpenAI aus dem August 2024 auf, womit die US-Regierung nun formale Evaluierungsarrangements mit allen fünf führenden Frontier-Laboren in den Vereinigten Staaten hat.

Was decken die Vereinbarungen konkret ab?

Die Vereinbarungen umfassen Pre-Deployment-Evaluierungen (vor der öffentlichen Veröffentlichung eines Modells) und Post-Deployment-Forschung (Analyse von Modellen, die bereits auf dem Markt sind). CAISI hat bislang mehr als 40 Evaluierungen durchgeführt — darunter Bewertungen unveröffentlichter Spitzenmodelle, die Labore vor dem Launch zum Testen einreichen.

Der technische Rahmen der Vereinbarungen erlaubt es Laboren, Modelle mit „reduzierten oder entfernten Schutzmaßnahmen” (z. B. Content-Filter, Ablehnungsschichten) bereitzustellen, damit CAISI die tatsächlichen Fähigkeitsgrenzen der Modelle ohne Eingriff durch Sicherheits-Guardrails messen kann. Tests werden routinemäßig in klassifizierten Umgebungen mit Expertenteams aus mehreren Behörden durchgeführt, die über die TRAINS Taskforce agieren — ein Koordinierungsgremium, das im November 2024 gegründet wurde, um KI-Forschung mit nationaler Sicherheit abzustimmen.

Wie prägt die Aussage des Direktors den strategischen Kontext?

Chris Fall, Direktor von CAISI, fasste den Zweck der Vereinbarungen zusammen: „Independent, rigorous measurement science is essential to understanding frontier AI and its national security implications.” Das Zitat unterstreicht, dass CAISIs Auftrag metrischer, nicht politischer Natur ist — Ziel ist die objektive Messung von Fähigkeitsschwellen, nicht die Vorgabe von Marktzugangsbedingungen.

Die Vereinbarungen sind flexibel strukturiert und enthalten Klauseln, die schnelle Reaktionen auf künftige KI-Entwicklungen erlauben, ohne Neuverhandlungen zu erfordern. Testergebnisse verbleiben im klassifizierten Kanal, doch arbeitet NIST mit den Laboren an freiwilligen Produktverbesserungen und dem Austausch von Informationen zur internationalen Wettbewerbsfähigkeit zusammen.

Warum ist dies ein Wendepunkt für die Frontier-KI-Regulierung?

Die Konsolidierung aller fünf führenden US-Frontier-Labore (Anthropic, OpenAI, Google DeepMind, Microsoft, xAI) unter einem einheitlichen staatlichen Evaluierungsrahmen ist eine strukturelle Veränderung. Noch vor 18 Monaten waren staatliche KI-Modellbewertungen ad-hoc und basierten auf freiwilliger Offenlegung. CAISI wird nun zum de-facto-Nationallabor für Frontier-KI-Bewertungen.

Praktische Konsequenzen für die Industrie: Labore müssen nun klassifizierte Test-Pipelines vorhalten, Fähigkeitsbehauptungen auf eine durch die CAISI-Methodik verifizierbare Weise dokumentieren und staatliche Pre-Release-Prüfungen bei erheblichen Fähigkeitssprüngen einplanen. Für das EU AI Office und das UK AI Safety Institute ist dies ein Referenzmodell — eine formale Pre-Deployment-Testpflicht mit einem Mechanismus für Tests mit „entfernten Schutzmaßnahmen”, den EU-KI-Gesetz-Artikel 51 (Allzweckmodelle mit systemischem Risiko) noch nicht auf diesem Detailniveau operationalisiert hat.

Häufig gestellte Fragen

Was ist CAISI und welche Unternehmen deckt es nun ab?

CAISI (Center for AI Standards and Innovation) ist NISTs Zentrum, das nach den neuen Vereinbarungen vom 5. Mai 2026 Evaluierungsarrangements mit allen fünf führenden US-Frontier-KI-Laboren hat: Anthropic, OpenAI, Google DeepMind, Microsoft und xAI.

Wie viele Evaluierungen hat CAISI bisher durchgeführt?

CAISI hat bislang mehr als 40 Evaluierungen von Frontier-Modellen durchgeführt, darunter unveröffentlichte Spitzenmodelle, die von Laboren mit reduzierten oder entfernten Schutzmaßnahmen eingereicht wurden. Tests erfolgen in klassifizierten Umgebungen über die TRAINS Taskforce.

Was ist der Unterschied zwischen Pre- und Post-Deployment-Tests?

Pre-Deployment-Tests werden vor der öffentlichen Veröffentlichung eines Modells durchgeführt, um nationale Sicherheitsimplikationen zu bewerten. Post-Deployment-Forschung analysiert bereits am Markt befindliche Modelle. Beide Ansätze sind durch die neuen CAISI-Vereinbarungen abgedeckt.

NIST CAISI weitet Frontier-KI-Sicherheitstests auf Google DeepMind, Microsoft und xAI aus

Was decken die Vereinbarungen konkret ab?

Wie prägt die Aussage des Direktors den strategischen Kontext?

Warum ist dies ein Wendepunkt für die Frontier-KI-Regulierung?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten