NIST CAISI의 DeepSeek V4 Pro 평가: 5개 영역 9개 벤치마크에서 미국 프론티어 모델보다 8개월 뒤처짐
NIST 산하 AI 표준 및 혁신 센터(CAISI)가 5개 영역의 9개 벤치마크(사이버보안, 소프트웨어 엔지니어링, 자연과학, 추상 추론, 수학)에 걸쳐 중국 모델 DeepSeek V4 Pro를 독립적으로 평가했습니다. 핵심 발견: V4는 미국 프론티어 모델보다 약 8개월 뒤처져 있으며, 특히 DeepSeek가 자체 기술 보고서에 포함하지 않은 추론 및 에이전트 작업에서 두드러집니다. 7개 테스트 중 5개에서 사용 비용이 GPT-5.4 mini보다 저렴했습니다.
**NIST 산하 AI 표준 및 혁신 센터(CAISI)**가 중국 모델 DeepSeek V4 Pro에 대한 독립 평가를 발표하며, 중국 최강의 프론티어 시스템과 미국 모델 간의 격차를 처음으로 정량화했습니다. 결과: V4 Pro는 CAISI가 평가한 중국 모델 중 가장 능력 있는 모델이지만, 대부분의 벤치마크에서 미국 프론티어 모델보다 약 8개월 뒤처져 있습니다. 평가는 특히 DeepSeek가 자체 기술 보고서에 포함하지 않은 추론 및 에이전트 시나리오에 초점을 맞췄습니다.
어떤 벤치마크를 테스트했습니까?
CAISI는 5개 영역의 9개 벤치마크에서 테스트를 실시했습니다:
- 사이버보안: CTF-Archive-Diamond
- 소프트웨어 엔지니어링: SWE-Bench Verified, PortBench
- 자연과학: FrontierScience, GPQA-Diamond
- 추상 추론: ARC-AGI-2 반공개
- 수학: OTIS-AIME-2025, PUMaC 2024, SMT 2025
테스트 세트에는 DeepSeek가 자체 연구에서 사용하지 않았던 보류 평가(PortBench, ARC-AGI-2 반공개)가 포함되어 있어, 중국 팀이 개발한 벤치마크 외에서의 일반화 능력을 독립적으로 검증할 수 있습니다.
모델 간 실제 격차는 얼마나 됩니까?
구체적인 결과는 불균일한 분포를 보여줍니다:
- CTF-Archive-Diamond: GPT-5.5 71%, Opus 4.6 46%, DeepSeek V4 32%, GPT-5.4 mini 32%
- SWE-Bench Verified: GPT-5.5 81%, Opus 4.6 79%, DeepSeek V4 74%, GPT-5.4 mini 73%
- PortBench: GPT-5.5 78%, Opus 4.6 60%, DeepSeek V4 44%, GPT-5.4 mini 41%
- ARC-AGI-2 반공개: GPT-5.5 79%, Opus 4.6 63%, DeepSeek V4 46%
- GPQA-Diamond: GPT-5.5 96%, Opus 4.6 91%, DeepSeek V4 90%, GPT-5.4 mini 87%
DeepSeek V4는 GPQA-Diamond(GPT-5.5와 단 6포인트 차이)와 SWE-Bench Verified(7포인트 차이)에서 프론티어에 가장 가깝게 접근하지만, CTF-Archive(사이버보안)와 PortBench(보류 SWE)에서는 차이가 30포인트 이상으로 벌어집니다. CAISI는 이 분포가 평균적으로 8개월의 지연에 해당하며, 다단계 추론과 에이전트 능력이 필요한 작업에서 격차가 더 크다고 추정합니다.
비용은 어떻습니까?
가격 분석에 따르면 DeepSeek V4 Pro는 7개 테스트 중 5개에서 GPT-5.4 mini보다 저렴하며, 벤치마크에 따라 53% 저렴한 경우부터 41% 비싼 경우까지 다양합니다. 이는 V4가 품질에서 뒤처지더라도 구체적인 경제적 신호를 갖는다는 것을 의미합니다——8개월의 지연이 문제가 되지 않는 작업에서 단위 비용을 최적화하는 조직에게 V4는 현실적인 옵션입니다.
CAISI는 또한 DeepSeek의 기술 보고서가 V4가 “미국 프론티어 모델과 거의 동등한 수준”으로 보이는 벤치마크를 강조하고, ARC-AGI-2 반공개, PortBench, CTF-Archive에서의 약한 성능은 제시되지 않았음을 확인했습니다. 이것이 독립적인 정부 평가가 중요한 이유를 보여주는 사례입니다——마케팅적으로 형성된 자체 보고 결과에 맥락을 제공하는 것입니다.
자주 묻는 질문
- DeepSeek V4 Pro는 서방 모델에 비해 얼마나 뒤처져 있습니까?
- CAISI 추정에 따르면 약 8개월입니다. 구체적 사례: CTF-Archive-Diamond에서 V4는 32%, GPT-5.5는 71%이며, ARC-AGI-2 반공개 테스트에서 V4는 46%, GPT-5.5는 79%, Opus 4.6은 63%입니다.
- 테스트된 9개의 벤치마크는 무엇입니까?
- CTF-Archive-Diamond(사이버보안), SWE-Bench Verified와 PortBench(소프트웨어 엔지니어링), FrontierScience와 GPQA-Diamond(자연과학), ARC-AGI-2 반공개(추상 추론), OTIS-AIME-2025, PUMaC 2024, SMT 2025(수학).
- 가격 비교는 어떻습니까?
- DeepSeek V4 Pro는 7개 테스트 중 5개에서 GPT-5.4 mini보다 저렴하며, 벤치마크에 따라 53% 저렴한 경우부터 41% 비싼 경우까지 다양합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.