NIST CAISI evaluacija DeepSeek V4 Pro: 8 mjeseci zaostatka za frontier US modelima na 9 benchmarka u 5 domena
Centar za AI standarde i inovacije pri NIST-u (CAISI) objavio je neovisnu evaluaciju kineskog modela DeepSeek V4 Pro na 9 benchmarka u 5 domena (kibernetika, software engineering, prirodne znanosti, abstract reasoning, matematika). Ključni nalaz: V4 zaostaje 8 mjeseci za frontier američkim modelima, posebno na rezoniranju i agentskim zadacima koje DeepSeek nije uključio u vlastiti tehnički izvještaj. Cijena upotrebe je niža od GPT-5.4 mini u 5 od 7 testova.
Centar za AI standarde i inovacije pri NIST-u (CAISI) objavio je neovisnu evaluaciju kineskog modela DeepSeek V4 Pro koja prvi put kvantificira jaz između najjačeg kineskog frontier sustava i američkih modela. Rezultat: V4 Pro je trenutno najsposobniji kineski model koji je CAISI ocijenio, ali ostaje otprilike 8 mjeseci iza frontier US modela na većini benchmarka. Evaluacija se posebno usredotočila na zadatke rezoniranja i agentske scenarije koje DeepSeek nije uključio u vlastiti tehnički izvještaj.
Koji benchmarci su testirani?
CAISI je proveo testiranje na 9 benchmarka u 5 domena:
- Kibernetika: CTF-Archive-Diamond
- Software engineering: SWE-Bench Verified, PortBench
- Prirodne znanosti: FrontierScience, GPQA-Diamond
- Abstract reasoning: ARC-AGI-2 semi-private
- Matematika: OTIS-AIME-2025, PUMaC 2024, SMT 2025
Skup uključuje held-out evaluacije (PortBench, ARC-AGI-2 semi-private) koje DeepSeek nije imao u vlastitom radu, što omogućuje neovisnu provjeru generalizacije izvan benchmarka koje je razvijao kineski tim.
Koliki je stvarni jaz između modela?
Konkretni rezultati pokazuju nejednolik raspored:
- CTF-Archive-Diamond: GPT-5.5 71%, Opus 4.6 46%, DeepSeek V4 32%, GPT-5.4 mini 32%
- SWE-Bench Verified: GPT-5.5 81%, Opus 4.6 79%, DeepSeek V4 74%, GPT-5.4 mini 73%
- PortBench: GPT-5.5 78%, Opus 4.6 60%, DeepSeek V4 44%, GPT-5.4 mini 41%
- ARC-AGI-2 semi-private: GPT-5.5 79%, Opus 4.6 63%, DeepSeek V4 46%
- GPQA-Diamond: GPT-5.5 96%, Opus 4.6 91%, DeepSeek V4 90%, GPT-5.4 mini 87%
DeepSeek V4 najbliže prilazi frontier-u na GPQA-Diamond (samo 6 postotnih bodova iza GPT-5.5) i SWE-Bench Verified (7 bodova iza), ali na CTF-Archive (kibernetika) i PortBench (held-out SWE) jaz se proširi na 30+ postotnih bodova. CAISI procjenjuje da ova distribucija odgovara 8 mjeseci zaostatka u prosjeku, s većim jazom na zadacima koji zahtijevaju multi-step rezoniranje i agentske kapacitete.
Što je s troškovima?
Cjenovna analiza pokazuje da je DeepSeek V4 Pro jeftiniji od GPT-5.4 mini u 5 od 7 testova, s rasponom od 53 % jeftinije do 41 % skuplje ovisno o benchmarku. To znači da iako V4 zaostaje u kvaliteti, ima konkretan ekonomski signal — za organizacije koje optimiziraju cost-per-task na zadacima gdje 8-mjesečni zaostatak ne smeta, V4 je realna opcija.
CAISI također potvrđuje da je DeepSeekov tehnički izvještaj naglašavao benchmarke gdje je V4 izgledao “otprilike na razini frontier US modela”, a slabija pozicija na ARC-AGI-2 semi-private, PortBench i CTF-Archive nije bila predstavljena. Ovo je primjer zašto su neovisne vladine evaluacije važne — daju kontekst marketinški oblikovanim self-report rezultatima.
Česta pitanja
- Koliko DeepSeek V4 Pro zaostaje za zapadnim modelima?
- Otprilike 8 mjeseci po procjeni CAISI-a. Konkretni primjeri: na CTF-Archive-Diamond V4 postiže 32% naspram GPT-5.5 71%, a na ARC-AGI-2 semi-private 46% naspram GPT-5.5 79% i Opus 4.6 63%.
- Koja 9 benchmarka su testirana?
- CTF-Archive-Diamond (kibernetika), SWE-Bench Verified i PortBench (software engineering), FrontierScience i GPQA-Diamond (prirodne znanosti), ARC-AGI-2 semi-private (abstract reasoning), OTIS-AIME-2025, PUMaC 2024, SMT 2025 (matematika).
- Kakva je cjenovna usporedba?
- DeepSeek V4 Pro je jeftiniji od GPT-5.4 mini u 5 od 7 testova, s rasponom od 53% jeftinije do 41% skuplje ovisno o benchmarku.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
KellyBench: AI agenti upravljali kladioničarskim bankrollom u Premier Ligi — svi vodeći modeli izgubili novac
GitHub povlači GPT-5.2 i GPT-5.2-Codex iz Copilota 1. lipnja 2026. — migracija na GPT-5.5 i GPT-5.3-Codex
Anthropic zatvara 1M context beta za Sonnet 4.5 i Sonnet 4 — migracija na 4.6 obavezna