NIST CAISI对DeepSeek V4 Pro的评估:在5个领域9个基准测试中落后美国前沿模型8个月
NIST下属的AI标准与创新中心(CAISI)对中国模型DeepSeek V4 Pro进行了独立评估,涵盖5个领域的9个基准测试(网络安全、软件工程、自然科学、抽象推理、数学)。核心发现:V4落后美国前沿模型约8个月,尤其在推理和代理任务方面——这些是DeepSeek未纳入其自身技术报告的领域。在7项测试中的5项,其使用成本低于GPT-5.4 mini。
NIST下属的AI标准与创新中心(CAISI)发布了对中国模型DeepSeek V4 Pro的独立评估,首次量化了中国最强前沿系统与美国模型之间的差距。结论是:V4 Pro是CAISI迄今评估的最具能力的中国模型,但在大多数基准测试上仍落后美国前沿模型约8个月。评估特别关注DeepSeek未纳入其自身技术报告的推理和代理场景。
测试了哪些基准?
CAISI在5个领域的9个基准测试上进行了测试:
- 网络安全: CTF-Archive-Diamond
- 软件工程: SWE-Bench Verified、PortBench
- 自然科学: FrontierScience、GPQA-Diamond
- 抽象推理: ARC-AGI-2半私有
- 数学: OTIS-AIME-2025、PUMaC 2024、SMT 2025
测试集包括DeepSeek自有研究中未曾使用的保留评估(PortBench、ARC-AGI-2半私有),从而可以对中国团队开发的基准测试之外的泛化能力进行独立验证。
模型之间的实际差距有多大?
具体结果显示了不均匀的分布:
- CTF-Archive-Diamond: GPT-5.5 71%、Opus 4.6 46%、DeepSeek V4 32%、GPT-5.4 mini 32%
- SWE-Bench Verified: GPT-5.5 81%、Opus 4.6 79%、DeepSeek V4 74%、GPT-5.4 mini 73%
- PortBench: GPT-5.5 78%、Opus 4.6 60%、DeepSeek V4 44%、GPT-5.4 mini 41%
- ARC-AGI-2半私有: GPT-5.5 79%、Opus 4.6 63%、DeepSeek V4 46%
- GPQA-Diamond: GPT-5.5 96%、Opus 4.6 91%、DeepSeek V4 90%、GPT-5.4 mini 87%
DeepSeek V4在GPQA-Diamond(仅落后GPT-5.5 6个百分点)和SWE-Bench Verified(落后7分)上最接近前沿水平,但在CTF-Archive(网络安全)和PortBench(保留SWE测试)上,差距扩大至30个百分点以上。CAISI估计,这一分布平均相当于8个月的落后,在需要多步推理和代理能力的任务上差距更大。
成本情况如何?
价格分析显示,DeepSeek V4 Pro在7项测试中的5项比GPT-5.4 mini更便宜,差距在**便宜53%到贵41%**之间,具体取决于基准。这意味着,尽管V4在质量上有所落后,但它具有实际的经济信号——对于在8个月的落后不影响使用的任务上优化单任务成本的组织而言,V4是一个现实的选择。
CAISI还确认,DeepSeek的技术报告强调了V4看起来”与美国前沿模型基本持平”的基准,而在ARC-AGI-2半私有、PortBench和CTF-Archive上的较弱表现并未被展示。这正是为什么独立政府评估很重要的原因——它为经过营销塑造的自我报告结果提供了背景信息。
常见问题
- DeepSeek V4 Pro落后西方模型多少?
- 根据CAISI估计,大约落后8个月。具体示例:在CTF-Archive-Diamond上,V4得分32%,而GPT-5.5为71%;在ARC-AGI-2半私有测试上,V4为46%,而GPT-5.5为79%,Opus 4.6为63%。
- 测试了哪9个基准?
- CTF-Archive-Diamond(网络安全)、SWE-Bench Verified和PortBench(软件工程)、FrontierScience和GPQA-Diamond(自然科学)、ARC-AGI-2半私有(抽象推理)、OTIS-AIME-2025、PUMaC 2024、SMT 2025(数学)。
- 价格对比如何?
- DeepSeek V4 Pro在7项测试中的5项比GPT-5.4 mini更便宜,差距从便宜53%到贵41%不等,具体取决于基准。
本文由人工智能基于一手来源生成。