NIST CAISI-Evaluierung von DeepSeek V4 Pro: 8 Monate Rückstand gegenüber US-Frontier-Modellen in 9 Benchmarks und 5 Domänen
Das Zentrum für KI-Standards und Innovation beim NIST (CAISI) hat eine unabhängige Evaluierung des chinesischen Modells DeepSeek V4 Pro über 9 Benchmarks in 5 Domänen veröffentlicht (Cybersicherheit, Software Engineering, Naturwissenschaften, abstraktes Schlussfolgern, Mathematik). Hauptbefund: V4 liegt 8 Monate hinter US-Frontier-Modellen zurück, insbesondere bei Schlussfolgerungs- und agentischen Aufgaben, die DeepSeek nicht in seinen eigenen technischen Bericht aufgenommen hat. Die Nutzungskosten sind in 5 von 7 Tests niedriger als bei GPT-5.4 mini.
Das Zentrum für KI-Standards und Innovation beim NIST (CAISI) hat eine unabhängige Evaluierung des chinesischen Modells DeepSeek V4 Pro veröffentlicht, die erstmals den Abstand zwischen dem stärksten chinesischen Frontier-System und US-Modellen quantifiziert. Ergebnis: V4 Pro ist derzeit das fähigste chinesische Modell, das CAISI evaluiert hat, bleibt aber bei den meisten Benchmarks etwa 8 Monate hinter US-Frontier-Modellen zurück. Die Evaluierung konzentrierte sich besonders auf Schlussfolgerungsaufgaben und agentische Szenarien, die DeepSeek nicht in seinen eigenen technischen Bericht aufgenommen hatte.
Welche Benchmarks wurden getestet?
CAISI führte Tests über 9 Benchmarks in 5 Domänen durch:
- Cybersicherheit: CTF-Archive-Diamond
- Software Engineering: SWE-Bench Verified, PortBench
- Naturwissenschaften: FrontierScience, GPQA-Diamond
- Abstraktes Schlussfolgern: ARC-AGI-2 semi-private
- Mathematik: OTIS-AIME-2025, PUMaC 2024, SMT 2025
Der Satz enthält Held-Out-Evaluierungen (PortBench, ARC-AGI-2 semi-private), die DeepSeek nicht in seiner eigenen Arbeit hatte. Dies ermöglicht eine unabhängige Überprüfung der Generalisierung über die vom chinesischen Team entwickelten Benchmarks hinaus.
Wie groß ist der tatsächliche Abstand zwischen den Modellen?
Konkrete Ergebnisse zeigen eine ungleichmäßige Verteilung:
- CTF-Archive-Diamond: GPT-5.5 71 %, Opus 4.6 46 %, DeepSeek V4 32 %, GPT-5.4 mini 32 %
- SWE-Bench Verified: GPT-5.5 81 %, Opus 4.6 79 %, DeepSeek V4 74 %, GPT-5.4 mini 73 %
- PortBench: GPT-5.5 78 %, Opus 4.6 60 %, DeepSeek V4 44 %, GPT-5.4 mini 41 %
- ARC-AGI-2 semi-private: GPT-5.5 79 %, Opus 4.6 63 %, DeepSeek V4 46 %
- GPQA-Diamond: GPT-5.5 96 %, Opus 4.6 91 %, DeepSeek V4 90 %, GPT-5.4 mini 87 %
DeepSeek V4 kommt dem Frontier am nächsten bei GPQA-Diamond (nur 6 Prozentpunkte hinter GPT-5.5) und SWE-Bench Verified (7 Punkte zurück), aber bei CTF-Archive (Cybersicherheit) und PortBench (Held-Out-SWE) weitet sich der Abstand auf 30+ Prozentpunkte aus. CAISI schätzt, dass diese Verteilung im Durchschnitt einem 8-monatigen Rückstand entspricht, mit einem größeren Abstand bei Aufgaben, die mehrstufiges Schlussfolgern und agentische Fähigkeiten erfordern.
Was ist mit den Kosten?
Die Kostenanalyse zeigt, dass DeepSeek V4 Pro in 5 von 7 Tests günstiger als GPT-5.4 mini ist, mit einer Spanne von 53 % günstiger bis 41 % teurer je nach Benchmark. Das bedeutet, dass V4 zwar qualitativ zurückliegt, aber ein konkretes wirtschaftliches Signal sendet — für Organisationen, die Cost-per-Task bei Aufgaben optimieren, bei denen ein 8-monatiger Rückstand keine Rolle spielt, ist V4 eine realistische Option.
CAISI bestätigt auch, dass DeepSeeks technischer Bericht Benchmarks betonte, bei denen V4 „ungefähr auf dem Niveau von US-Frontier-Modellen” aussah, während die schwächere Position bei ARC-AGI-2 semi-private, PortBench und CTF-Archive nicht dargestellt wurde. Dies ist ein Beispiel dafür, warum unabhängige staatliche Evaluierungen wichtig sind — sie liefern Kontext für marketinggestaltete Selbstberichte.
Häufig gestellte Fragen
- Wie weit liegt DeepSeek V4 Pro hinter westlichen Modellen zurück?
- Etwa 8 Monate nach Einschätzung von CAISI. Konkrete Beispiele: Bei CTF-Archive-Diamond erreicht V4 32 % gegenüber GPT-5.5 mit 71 %, und bei ARC-AGI-2 semi-private 46 % gegenüber GPT-5.5 mit 79 % und Opus 4.6 mit 63 %.
- Welche 9 Benchmarks wurden getestet?
- CTF-Archive-Diamond (Cybersicherheit), SWE-Bench Verified und PortBench (Software Engineering), FrontierScience und GPQA-Diamond (Naturwissenschaften), ARC-AGI-2 semi-private (abstraktes Schlussfolgern), OTIS-AIME-2025, PUMaC 2024, SMT 2025 (Mathematik).
- Wie ist der Kostenvergleich?
- DeepSeek V4 Pro ist in 5 von 7 Tests günstiger als GPT-5.4 mini, mit einer Spanne von 53 % günstiger bis 41 % teurer je nach Benchmark.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
KellyBench: KI-Agenten verwalten Wett-Bankroll durch die Premier-League-Saison — alle führenden Modelle verloren Geld
GitHub stellt GPT-5.2 und GPT-5.2-Codex in Copilot am 1. Juni 2026 ein — Migration auf GPT-5.5 und GPT-5.3-Codex
Anthropic schließt 1M-Kontext-Beta für Sonnet 4.5 und Sonnet 4 — Migration auf 4.6 erforderlich