NIST：DeepSeek V4 Pro落后前沿模型8个月

NIST下属的AI标准与创新中心（CAISI）对中国模型DeepSeek V4 Pro进行了独立评估，涵盖5个领域的9个基准测试（网络安全、软件工程、自然科学、抽象推理、数学）。核心发现：V4落后美国前沿模型约8个月，尤其在推理和代理任务方面——这些是DeepSeek未纳入其自身技术报告的领域。在7项测试中的5项，其使用成本低于GPT-5.4 mini。

NIST下属的AI标准与创新中心（CAISI）发布了对中国模型DeepSeek V4 Pro的独立评估，首次量化了中国最强前沿系统与美国模型之间的差距。结论是：V4 Pro是CAISI迄今评估的最具能力的中国模型，但在大多数基准测试上仍落后美国前沿模型约8个月。评估特别关注DeepSeek未纳入其自身技术报告的推理和代理场景。

测试了哪些基准？

CAISI在5个领域的9个基准测试上进行了测试：

网络安全： CTF-Archive-Diamond
软件工程： SWE-Bench Verified、PortBench
自然科学： FrontierScience、GPQA-Diamond
抽象推理： ARC-AGI-2半私有
数学： OTIS-AIME-2025、PUMaC 2024、SMT 2025

测试集包括DeepSeek自有研究中未曾使用的保留评估（PortBench、ARC-AGI-2半私有），从而可以对中国团队开发的基准测试之外的泛化能力进行独立验证。

模型之间的实际差距有多大？

具体结果显示了不均匀的分布：

CTF-Archive-Diamond： GPT-5.5 71%、Opus 4.6 46%、DeepSeek V4 32%、GPT-5.4 mini 32%
SWE-Bench Verified： GPT-5.5 81%、Opus 4.6 79%、DeepSeek V4 74%、GPT-5.4 mini 73%
PortBench： GPT-5.5 78%、Opus 4.6 60%、DeepSeek V4 44%、GPT-5.4 mini 41%
ARC-AGI-2半私有： GPT-5.5 79%、Opus 4.6 63%、DeepSeek V4 46%
GPQA-Diamond： GPT-5.5 96%、Opus 4.6 91%、DeepSeek V4 90%、GPT-5.4 mini 87%

DeepSeek V4在GPQA-Diamond（仅落后GPT-5.5 6个百分点）和SWE-Bench Verified（落后7分）上最接近前沿水平，但在CTF-Archive（网络安全）和PortBench（保留SWE测试）上，差距扩大至30个百分点以上。CAISI估计，这一分布平均相当于8个月的落后，在需要多步推理和代理能力的任务上差距更大。

成本情况如何？

价格分析显示，DeepSeek V4 Pro在7项测试中的5项比GPT-5.4 mini更便宜，差距在**便宜53%到贵41%**之间，具体取决于基准。这意味着，尽管V4在质量上有所落后，但它具有实际的经济信号——对于在8个月的落后不影响使用的任务上优化单任务成本的组织而言，V4是一个现实的选择。

CAISI还确认，DeepSeek的技术报告强调了V4看起来”与美国前沿模型基本持平”的基准，而在ARC-AGI-2半私有、PortBench和CTF-Archive上的较弱表现并未被展示。这正是为什么独立政府评估很重要的原因——它为经过营销塑造的自我报告结果提供了背景信息。

常见问题

DeepSeek V4 Pro落后西方模型多少？

根据CAISI估计，大约落后8个月。具体示例：在CTF-Archive-Diamond上，V4得分32%，而GPT-5.5为71%；在ARC-AGI-2半私有测试上，V4为46%，而GPT-5.5为79%，Opus 4.6为63%。

测试了哪9个基准？

CTF-Archive-Diamond（网络安全）、SWE-Bench Verified和PortBench（软件工程）、FrontierScience和GPQA-Diamond（自然科学）、ARC-AGI-2半私有（抽象推理）、OTIS-AIME-2025、PUMaC 2024、SMT 2025（数学）。

价格对比如何？

DeepSeek V4 Pro在7项测试中的5项比GPT-5.4 mini更便宜，差距从便宜53%到贵41%不等，具体取决于基准。

NIST CAISI对DeepSeek V4 Pro的评估：在5个领域9个基准测试中落后美国前沿模型8个月

测试了哪些基准？

模型之间的实际差距有多大？

成本情况如何？

常见问题

来源

相关新闻