DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
Zašto je bitno
DeepSeek je 24. travnja 2026. objavio V4-Pro (1,6T / 49B aktivnih) i V4-Flash (284B / 13B aktivnih), dva open-source modela s milijun tokena konteksta. V4-Pro postigao je 80,6 na SWE Verified, blizu Opusa 4.6, uz drastično smanjenu potrošnju memorije.
DeepSeek je u četvrtak, 24. travnja 2026., objavio preview izdanje serije V4, dva open-source modela otvorenih težina (weights): V4-Pro s 1,6 bilijuna ukupnih i 49 milijardi aktivnih parametara te V4-Flash s 284 milijarde ukupnih i 13 milijardi aktivnih. Oba modela podržavaju milijun tokena konteksta kao default preko svih službenih servisa.
Izdanje stiže u trenutku kada se natjecanje među frontier modelima seli iz domene čistih benchmark brojki u domenu efikasnosti pri dugom kontekstu i agentskih radnih tokova. DeepSeek je objavio težine na Hugging Face Hubu i popratni tehnički izvještaj.
Što donosi nova V4 arhitektura?
Ključna inovacija je hibridni attention mehanizam koji kombinira dvije komplementarne tehnike. Prva je CSA (Compressed Sparse Attention), koja komprimira svaka četiri tokena u jedan KV zapis pomoću naučenog pozicijskog pristupa, a zatim FP4 “Lightning Indexer” selektira top-k najrelevantnijih komprimiranih blokova po upitu.
Druga je HCA (Heavily Compressed Attention) s omjerom kompresije 128×, koja koristi gustu MQA (Multi-Query Attention) nad jako komprimiranim blokovima, bez potrebe za sparse selekcijom. Obje tehnike zadržavaju klizni prozor pune pažnje nad najnovijim tokenima.
Rezultat je KV cache svega 2 % u odnosu na standardni GQA-8 baseline. Pri 1M tokena konteksta, V4-Pro troši 27 % FLOPsa koje je trebao V3.2, a V4-Flash svega 10 %.
Koliko su dobri u stvarnim zadacima?
Na SWE Verified benchmarku, koji mjeri sposobnost modela da autonomno riješi stvarne GitHub bugove, V4-Pro-Max postiže 80,6 %, praktički izjednačenje s Anthropicovim Opusom 4.6-Max (80,8 %). Na Toolathlonu, koji mjeri orkestraciju alata, V4-Pro je prvi s 51,8 naspram 50,0 za Kimi K2.6.
Na internom benchmarku od 30 zadataka iz PyTorcha, CUDA-e, Rusta i C++-a, V4-Pro-Max pogađa 67 % zadataka, neznatno iza Opusa 4.5 (70 %) i znatno ispred Sonneta 4.5 (47 %). U internom developer survey-u među 91 DeepSeek inženjerom, 52 % je spremno zamijeniti primarni coding model, a dodatnih 39 % naginje prema “da”.
Kako funkcionira agentski post-training?
Uz arhitektonske promjene, DeepSeek je uveo interleaved thinking — lanac razmišljanja koji se zadržava preko granica korisničkih poruka u višekoračnim tool call tokovima. Bez alata model se ponaša klasično i briše reasoning pri svakoj novoj poruci.
Za tool pozive uveden je XML tool-call format s posebnim |DSML| tokenom. Primjer:
|DSML|
<tool_call>
<function_name>search</function_name>
<parameters>
<param name="query" string="true">vrijeme u Zagrebu</param>
</parameters>
</tool_call>
Prednost je smanjenje grešaka pri escapeanju ugniježđenih navodnika te razdvajanje stringovnih i strukturiranih parametara, što je tipičan problem JSON shema.
Što je DSec sandbox?
Za agentski reinforcement learning DeepSeek je izgradio DSec (DeepSeek Elastic Compute), Rust-baziranu infrastrukturu koja podržava četiri izvršna sloja: funkcijske pozive, kontejnere, microVM-ove (Firecracker) i pune VM-ove (QEMU). Sustav skalira do stotina tisuća paralelnih sandboxa i omogućuje “preemption-safe replay” — nastavak treninga bez ponovnog izvršavanja tool poziva.
Ova infrastruktura je razlog zašto V4 može biti treniran nad realnim tool okruženjima umjesto nad sintetičkim tragovima, što je primjetno u snazi na Toolathlon i MCPAtlas benchmarcima.
Kada stiže migracijski rok?
DeepSeek je paralelno objavio da će stari endpointi deepseek-chat i deepseek-reasoner biti u potpunosti ugašeni 24. srpnja 2026. u 15:59 UTC. Razvojni timovi koji koriste DeepSeek API imaju tri mjeseca za migraciju.
Nove verzije dostupne su u tri moda zaključivanja (non-think, think-high, think-max), a modeli su objavljeni u FP4 kvantizaciji za MoE experte i FP8 za ostatak, što dodatno smanjuje memorijske zahtjeve.
Za hrvatske razvojne timove koji žele self-hostati modele, V4-Flash je praktičnija opcija — 13 milijardi aktivnih parametara omogućuje inferenciju na standardnijem GPU hardveru nego što je to tražio V3.2.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
arXiv:2604.21764: 'Thinking with Reasoning Skills' smanjuje broj reasoning tokena uz veću točnost na ACL 2026 Industry Tracku
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate