NIST CAISI によるDeepSeek V4 Pro評価:5分野9ベンチマークで米国フロンティアモデルに8か月遅れ
NISTのAI標準・イノベーションセンター(CAISI)が、中国モデルDeepSeek V4 Proの独立評価を5分野9ベンチマーク(サイバーセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象推論、数学)にわたって実施しました。主要な知見:V4は米国フロンティアモデルから8か月遅れており、特にDeepSeekが自社の技術レポートに含めていない推論とエージェントタスクで顕著です。利用コストは7テスト中5つでGPT-5.4 miniより安価でした。
NISTのAI標準・イノベーションセンター(CAISI)が中国モデルDeepSeek V4 Proの独立評価を発表し、中国最強のフロンティアシステムと米国モデルのギャップを初めて定量化しました。結果:V4 ProはCAISIが評価した中で最も能力の高い中国モデルですが、ほとんどのベンチマークで米国フロンティアモデルからおよそ8か月遅れています。評価は特に、DeepSeekが自社の技術レポートに含めなかった推論とエージェントシナリオに焦点を当てています。
どのベンチマークがテストされましたか?
CAISIは5分野の9ベンチマークでテストを実施しました:
- サイバーセキュリティ: CTF-Archive-Diamond
- ソフトウェアエンジニアリング: SWE-Bench Verified、PortBench
- 自然科学: FrontierScience、GPQA-Diamond
- 抽象推論: ARC-AGI-2セミプライベート
- 数学: OTIS-AIME-2025、PUMaC 2024、SMT 2025
テストセットには、DeepSeekが自社の研究で使用していなかったホールドアウト評価(PortBench、ARC-AGI-2セミプライベート)が含まれており、中国チームが開発したベンチマーク以外での汎化能力を独立して検証することができます。
モデル間の実際のギャップはどれくらいですか?
具体的な結果は不均一な分布を示しています:
- CTF-Archive-Diamond: GPT-5.5 71%、Opus 4.6 46%、DeepSeek V4 32%、GPT-5.4 mini 32%
- SWE-Bench Verified: GPT-5.5 81%、Opus 4.6 79%、DeepSeek V4 74%、GPT-5.4 mini 73%
- PortBench: GPT-5.5 78%、Opus 4.6 60%、DeepSeek V4 44%、GPT-5.4 mini 41%
- ARC-AGI-2セミプライベート: GPT-5.5 79%、Opus 4.6 63%、DeepSeek V4 46%
- GPQA-Diamond: GPT-5.5 96%、Opus 4.6 91%、DeepSeek V4 90%、GPT-5.4 mini 87%
DeepSeek V4はGPQA-Diamond(GPT-5.5からわずか6ポイント差)とSWE-Bench Verified(7ポイント差)でフロンティアに最も近づいていますが、CTF-Archive(サイバーセキュリティ)とPortBench(ホールドアウトSWE)では差が30ポイント以上に広がります。CAISIはこの分布が平均して8か月の遅れに相当すると推定し、多段階推論とエージェント能力を必要とするタスクでギャップが大きいとしています。
コストについては?
価格分析では、DeepSeek V4 Proは7テスト中5つでGPT-5.4 miniより安く、ベンチマークによって53%安い場合から41%高い場合までの差があります。これは、V4が品質で遅れているものの、具体的な経済的シグナルを持つことを意味します——8か月の遅れが問題にならないタスクでコストを最適化したい組織にとって、V4は現実的な選択肢です。
CAISIはまた、DeepSeekの技術レポートがV4が「米国フロンティアモデルとほぼ同等」に見えるベンチマークを強調し、ARC-AGI-2セミプライベート、PortBench、CTF-Archiveでの弱い結果は提示されていなかったと確認しています。これは、独立した政府評価が重要な理由の一例です——マーケティング的に形成された自己報告結果にコンテキストを提供してくれるのです。
よくある質問
- DeepSeek V4 Proは西側モデルからどれだけ遅れていますか?
- CAISIの推定では約8か月遅れています。具体例として、CTF-Archive-DiamondではV4が32%なのに対しGPT-5.5は71%、ARC-AGI-2セミプライベートではV4が46%なのに対しGPT-5.5が79%、Opus 4.6が63%です。
- テストされた9つのベンチマークは何ですか?
- CTF-Archive-Diamond(サイバーセキュリティ)、SWE-Bench VerifiedとPortBench(ソフトウェアエンジニアリング)、FrontierScienceとGPQA-Diamond(自然科学)、ARC-AGI-2セミプライベート(抽象推論)、OTIS-AIME-2025、PUMaC 2024、SMT 2025(数学)。
- コスト比較はどうですか?
- DeepSeek V4 Proは7テスト中5つでGPT-5.4 miniより安く、ベンチマークによって53%安い場合から41%高い場合まで差があります。
この記事はAIにより一次情報源から生成されました。