NIST CAISI：DeepSeek V4 Pro, 미국 프런티어보다 8개월 뒤처져

미국 NIST 산하 인공지능 표준 및 혁신 센터(CAISI)가 2026년 5월 1일 DeepSeek V4 Pro 모델에 대한 독립 평가를 발표했습니다. 결론: 지금까지 평가된 PRC AI 모델 중 가장 뛰어나지만, 종합 능력에서 미국 프런티어보다 약 8개월 뒤처집니다. 평가는 사이버 보안, 소프트웨어 엔지니어링, 자연과학, 추상적 추론, 수학의 5개 영역에서 미공개 벤치마크를 사용하여 수행되었습니다.

미국 국립표준기술연구소(NIST) 산하 **인공지능 표준 및 혁신 센터(CAISI)**는 2026년 5월 1일 중국 모델 DeepSeek V4 Pro에 대한 독립 평가를 발표했습니다. 결과: 이 모델은 지금까지 평가된 중국 AI 시스템 중 가장 뛰어나지만, 종합 능력에서 미국 프런티어보다 약 8개월 뒤처집니다.

평가는 어떻게 수행되었는가?

CAISI는 5개 영역에서 미공개(non-public) 벤치마크를 적용했습니다: 사이버 보안, 소프트웨어 엔지니어링, 자연과학, 추상적 추론, 수학. 미공개 벤치마크 세트 사용은 오염을 방지하는 방법론적 선택입니다——벤치마크가 공개되지 않으면 모델이 훈련 중에 그것을 볼 수 없으므로, 결과는 암기가 아닌 실제 능력을 반영합니다.

그 결과 CAISI 결과는 DeepSeek 자체 보고 수치보다 훨씬 큰 격차를 보여줍니다. 이는 업계에서 예상되는 패턴입니다: 공개 벤치마크는 오염에 취약한 반면, 비공개 벤치마크는 프런티어 모델의 능력에 대한 더 현실적인 추정치를 제공합니다. 공개 결과와 비공개 결과의 차이는 연구소 모델이 얼마나 「시험을 위한 훈련」을 했는지를 드러냅니다.

가격에 관한 구체적인 발견은?

기술적으로는 뒤처지지만, DeepSeek V4 Pro는 7개 테스트 세트 중 5개에서 GPT-5.4 mini보다 저렴합니다. 가격 차이는 영역과 작업의 특성에 따라 53% 저렴에서 41% 비싼 것까지 다양합니다. 정확한 답변당 비용이 핵심 지표인 실제 워크로드에서는 경제적 우위가 기술적 격차를 부분적으로 보완합니다.

멀티클라우드 전략을 평가하거나 모델 다양화를 원하는 기업 구매자에게, 이 비용 프로파일은 DeepSeek V4 Pro를 합리적인 보조 모델로 만듭니다——주요 플래그십이 아닌, 절대적인 최고 능력이 필요하지 않은 작업의 저비용 대안으로서.

이는 중국의 AI 시장 포지션에 무엇을 의미하는가?

CAISI 평가는 미중 AI 격차를 질적으로가 아닌 월 단위로 정량화한 최초의 공식 미국 정부 문서입니다. 8개월은 상당하지만 극복 불가능한 격차는 아닙니다. 트렌드는 DeepSeek가 격차를 좁히고 있음을 보여줍니다——V3는 약 12~14개월, V4 Pro는 8개월 뒤처집니다.

CAISI 보고서에서 나오는 더 광범위한 정책적 메시지: 미국의 우위는 현실이지만 정적이지 않습니다. 수출 통제, GPU 축적（미국 제한 하에）, 그리고 중국 오픈웨이트 모델（Qwen, DeepSeek）의 품질이 국내 대안을 「거의 프런티어」라고 할 수 없게 만들고 있습니다.

평가는 nist.gov에서 확인 가능하며 2026년 5월 2일에 업데이트되었습니다.

자주 묻는 질문

DeepSeek V4 Pro는 미국 프런티어 모델보다 얼마나 뒤처집니까?

미공개 벤치마크를 사용한 독립적인 CAISI 평가에 따르면, 종합 능력에서 약 8개월 뒤처집니다. 이는 DeepSeek 자체 보고 결과가 시사하는 것보다 훨씬 큰 격차입니다.

테스트는 어떤 영역에서 수행되었습니까?

5개 영역: 사이버 보안, 소프트웨어 엔지니어링, 자연과학, 추상적 추론, 수학. CAISI는 결과가 모델 훈련 데이터에 의해 오염되지 않도록 미공개 벤치마크를 사용합니다.

가격 대비 성능은 어떻습니까?

DeepSeek V4 Pro는 7개 테스트 세트 중 5개에서 GPT-5.4 mini보다 저렴하며, 가격 차이는 영역 및 작업 특성에 따라 53% 저렴에서 41% 비싼 것까지 다양합니다. 경제적 우위가 기술적 격차를 부분적으로 보완합니다.

NIST CAISI：DeepSeek V4 Pro, 지금까지 평가된 최강 중국 AI 모델이지만 미국 프런티어에 8개월 뒤처져

평가는 어떻게 수행되었는가?

가격에 관한 구체적인 발견은?

이는 중국의 AI 시장 포지션에 무엇을 의미하는가?

자주 묻는 질문

출처

관련 뉴스