🟡 🤖 模型 2026年5月2日星期六 · 2 分钟阅读 ·

NIST CAISI对DeepSeek V4 Pro的评估:在5个领域9个基准测试中落后美国前沿模型8个月

Editorial illustration: vaga koja uspoređuje AI modele iznad geopolitičke karte

NIST下属的AI标准与创新中心(CAISI)对中国模型DeepSeek V4 Pro进行了独立评估,涵盖5个领域的9个基准测试(网络安全、软件工程、自然科学、抽象推理、数学)。核心发现:V4落后美国前沿模型约8个月,尤其在推理和代理任务方面——这些是DeepSeek未纳入其自身技术报告的领域。在7项测试中的5项,其使用成本低于GPT-5.4 mini。

NIST下属的AI标准与创新中心(CAISI)发布了对中国模型DeepSeek V4 Pro的独立评估,首次量化了中国最强前沿系统与美国模型之间的差距。结论是:V4 Pro是CAISI迄今评估的最具能力的中国模型,但在大多数基准测试上仍落后美国前沿模型约8个月。评估特别关注DeepSeek未纳入其自身技术报告的推理和代理场景。

测试了哪些基准?

CAISI在5个领域的9个基准测试上进行了测试:

  • 网络安全: CTF-Archive-Diamond
  • 软件工程: SWE-Bench Verified、PortBench
  • 自然科学: FrontierScience、GPQA-Diamond
  • 抽象推理: ARC-AGI-2半私有
  • 数学: OTIS-AIME-2025、PUMaC 2024、SMT 2025

测试集包括DeepSeek自有研究中未曾使用的保留评估(PortBench、ARC-AGI-2半私有),从而可以对中国团队开发的基准测试之外的泛化能力进行独立验证。

模型之间的实际差距有多大?

具体结果显示了不均匀的分布:

  • CTF-Archive-Diamond: GPT-5.5 71%、Opus 4.6 46%、DeepSeek V4 32%、GPT-5.4 mini 32%
  • SWE-Bench Verified: GPT-5.5 81%、Opus 4.6 79%、DeepSeek V4 74%、GPT-5.4 mini 73%
  • PortBench: GPT-5.5 78%、Opus 4.6 60%、DeepSeek V4 44%、GPT-5.4 mini 41%
  • ARC-AGI-2半私有: GPT-5.5 79%、Opus 4.6 63%、DeepSeek V4 46%
  • GPQA-Diamond: GPT-5.5 96%、Opus 4.6 91%、DeepSeek V4 90%、GPT-5.4 mini 87%

DeepSeek V4在GPQA-Diamond(仅落后GPT-5.5 6个百分点)和SWE-Bench Verified(落后7分)上最接近前沿水平,但在CTF-Archive(网络安全)和PortBench(保留SWE测试)上,差距扩大至30个百分点以上。CAISI估计,这一分布平均相当于8个月的落后,在需要多步推理和代理能力的任务上差距更大。

成本情况如何?

价格分析显示,DeepSeek V4 Pro在7项测试中的5项比GPT-5.4 mini更便宜,差距在**便宜53%到贵41%**之间,具体取决于基准。这意味着,尽管V4在质量上有所落后,但它具有实际的经济信号——对于在8个月的落后不影响使用的任务上优化单任务成本的组织而言,V4是一个现实的选择。

CAISI还确认,DeepSeek的技术报告强调了V4看起来”与美国前沿模型基本持平”的基准,而在ARC-AGI-2半私有、PortBench和CTF-Archive上的较弱表现并未被展示。这正是为什么独立政府评估很重要的原因——它为经过营销塑造的自我报告结果提供了背景信息。

常见问题

DeepSeek V4 Pro落后西方模型多少?
根据CAISI估计,大约落后8个月。具体示例:在CTF-Archive-Diamond上,V4得分32%,而GPT-5.5为71%;在ARC-AGI-2半私有测试上,V4为46%,而GPT-5.5为79%,Opus 4.6为63%。
测试了哪9个基准?
CTF-Archive-Diamond(网络安全)、SWE-Bench Verified和PortBench(软件工程)、FrontierScience和GPQA-Diamond(自然科学)、ARC-AGI-2半私有(抽象推理)、OTIS-AIME-2025、PUMaC 2024、SMT 2025(数学)。
价格对比如何?
DeepSeek V4 Pro在7项测试中的5项比GPT-5.4 mini更便宜,差距从便宜53%到贵41%不等,具体取决于基准。
🤖

本文由人工智能基于一手来源生成。