NIST CAISI, DeepMind·MSFT·xAI로 테스트 확대

NIST 산하 AI 표준혁신센터(CAISI)는 2026년 5월 5일 Google DeepMind, Microsoft, xAI와 프런티어 모델의 배포 전·후 테스트에 관한 확장 협약을 체결했습니다. CAISI는 현재까지 40건 이상의 평가를 실시했으며, 미공개 최첨단 모델에 대한 테스트를 포함해 안전장치를 제거한 기밀 환경에서 정례적으로 수행됩니다.

NIST 산하 AI 표준혁신센터(CAISI)는 2026년 5월 5일, 국가 안보 맥락에서 프런티어 AI 모델을 테스트하기 위해 Google DeepMind, Microsoft, xAI와 확장 협력 협약을 체결했다고 발표했습니다. 새 협약은 2024년 8월 CAISI가 Anthropic 및 OpenAI와 맺은 선행 협약을 확장한 것으로, 미국 정부는 이제 미국의 5대 선도 프런티어 랩 전체와 공식 평가 협정을 보유하게 되었습니다.

협약이 구체적으로 포함하는 내용

협약은 배포 전 평가(모델 공개 전)와 배포 후 연구(이미 시장에 출시된 모델 분석)를 포함합니다. CAISI는 현재까지 40건 이상의 평가를 수행했으며, 각 랩이 출시 전 제출한 미공개 최첨단 모델 평가도 포함됩니다.

협약의 기술 프레임워크는 랩이 “안전장치를 축소 또는 제거한 상태”(예: 콘텐츠 필터, 거부 레이어)로 모델을 제출할 수 있도록 허용합니다. 이를 통해 CAISI는 안전 가드레일의 간섭 없이 모델의 실제 역량 한계를 측정할 수 있습니다. 테스트는 2024년 11월 AI 연구와 국가 안보를 조율하기 위해 설립된 TRAINS 태스크포스를 통한 범기관 전문가들이 기밀 환경에서 정례적으로 수행합니다.

소장 발언이 전략적 맥락을 어떻게 정의하는가

CAISI 소장 Chris Fall은 협약의 목적을 이렇게 요약했습니다. “독립적이고 엄격한 측정 과학은 프런티어 AI와 그 국가 안보 함의를 이해하는 데 필수적입니다.” 이 발언은 CAISI의 임무가 정책 활동이 아닌 계측 활동임을 강조합니다. 목표는 모델의 역량 임계값을 객관적으로 측정하는 것이지, 시장 접근 조건을 지시하는 것이 아닙니다.

협약은 재협상 없이 미래 AI 발전에 신속하게 대응할 수 있는 조항을 포함해 유연하게 구조화되어 있습니다. 테스트 결과는 기밀 채널에 유지되지만, NIST는 랩과 역방향으로 협력하여 자발적 제품 개선 및 국제 경쟁력에 관한 정보 공유를 진행합니다.

왜 이것이 프런티어 AI 규제의 전환점인가

미국의 5대 선도 프런티어 랩(Anthropic, OpenAI, Google DeepMind, Microsoft, xAI) 전체를 단일 정부 평가 프레임워크로 통합한 것은 구조적 변화입니다. 18개월 전만 해도 정부의 AI 모델 평가는 임시방편적이고 자발적 공개에 의존했습니다. CAISI는 이제 사실상의 프런티어 AI 평가 국가 기관이 되었습니다.

산업에 대한 실질적 영향: 각 랩은 이제 기밀 테스트 파이프라인을 유지하고, CAISI 방법론으로 검증 가능한 방식으로 역량 주장을 문서화하며, 대폭적인 역량 향상 시 출시 전 정부 검토를 예상해야 합니다. EU AI 오피스와 영국 AI 안전 연구소에게 이것은 참조 모델입니다. “안전장치 제거” 테스트 메커니즘을 갖춘 공식 배포 전 테스트 의무이지만, EU AI법 제51조(시스템적 위험을 가진 범용 모델)는 아직 이 수준의 세부 사항을 운영화하지 못했습니다.

자주 묻는 질문

CAISI는 어떤 기관이며, 현재 어떤 기업이 포함되어 있습니까?

CAISI(AI 표준혁신센터)는 NIST 산하 기관입니다. 2026년 5월 5일 신규 협약 체결 이후 미국의 5대 프런티어 AI 랩 전체(Anthropic, OpenAI, Google DeepMind, Microsoft, xAI)와 평가 협약을 보유하게 되었습니다.

CAISI는 지금까지 몇 건의 평가를 수행했습니까?

CAISI는 프런티어 모델에 대해 40건 이상의 평가를 수행했으며, 안전장치가 축소 또는 제거된 상태의 미공개 최첨단 모델 평가도 포함됩니다. 테스트는 TRAINS 태스크포스를 통한 범기관 전문가들이 기밀 환경에서 정례적으로 수행합니다.

배포 전 테스트와 배포 후 테스트의 차이는 무엇입니까?

배포 전 테스트는 모델의 공개 출시 전에 수행하여 국가 안보 영향을 평가하고, 배포 후 연구는 이미 시장에 출시된 모델을 분석합니다. 두 방식 모두 CAISI의 신규 협약에 포함됩니다.

NIST CAISI, 프런티어 AI 국가 안보 테스트를 Google DeepMind·Microsoft·xAI로 확대

협약이 구체적으로 포함하는 내용

소장 발언이 전략적 맥락을 어떻게 정의하는가

왜 이것이 프런티어 AI 규제의 전환점인가

자주 묻는 질문

출처

관련 뉴스