DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
Zašto je bitno
DeepSeek je 24. travnja 2026. objavio V4-Pro (1,6T / 49B aktivnih) i V4-Flash (284B / 13B aktivnih), dva open-source modela s milijun tokena konteksta. V4-Pro postigao je 80,6 na SWE Verified, blizu Opusa 4.6, uz drastično smanjenu potrošnju memorije.
DeepSeek je u četvrtak, 24. travnja 2026., objavio preview izdanje serije V4, dva open-source modela otvorenih težina (weights): V4-Pro s 1,6 bilijuna ukupnih i 49 milijardi aktivnih parametara te V4-Flash s 284 milijarde ukupnih i 13 milijardi aktivnih. Oba modela podržavaju milijun tokena konteksta kao default preko svih službenih servisa.
Izdanje stiže u trenutku kada se natjecanje među frontier modelima seli iz domene čistih benchmark brojki u domenu efikasnosti pri dugom kontekstu i agentskih radnih tokova. DeepSeek je objavio težine na Hugging Face Hubu i popratni tehnički izvještaj.
Što donosi nova V4 arhitektura?
Ključna inovacija je hibridni attention mehanizam koji kombinira dvije komplementarne tehnike. Prva je CSA (Compressed Sparse Attention), koja komprimira svaka četiri tokena u jedan KV zapis pomoću naučenog pozicijskog pristupa, a zatim FP4 “Lightning Indexer” selektira top-k najrelevantnijih komprimiranih blokova po upitu.
Druga je HCA (Heavily Compressed Attention) s omjerom kompresije 128×, koja koristi gustu MQA (Multi-Query Attention) nad jako komprimiranim blokovima, bez potrebe za sparse selekcijom. Obje tehnike zadržavaju klizni prozor pune pažnje nad najnovijim tokenima.
Rezultat je KV cache svega 2 % u odnosu na standardni GQA-8 baseline. Pri 1M tokena konteksta, V4-Pro troši 27 % FLOPsa koje je trebao V3.2, a V4-Flash svega 10 %.
Koliko su dobri u stvarnim zadacima?
Na SWE Verified benchmarku, koji mjeri sposobnost modela da autonomno riješi stvarne GitHub bugove, V4-Pro-Max postiže 80,6 %, praktički izjednačenje s Anthropicovim Opusom 4.6-Max (80,8 %). Na Toolathlonu, koji mjeri orkestraciju alata, V4-Pro je prvi s 51,8 naspram 50,0 za Kimi K2.6.
Na internom benchmarku od 30 zadataka iz PyTorcha, CUDA-e, Rusta i C++-a, V4-Pro-Max pogađa 67 % zadataka, neznatno iza Opusa 4.5 (70 %) i znatno ispred Sonneta 4.5 (47 %). U internom developer survey-u među 91 DeepSeek inženjerom, 52 % je spremno zamijeniti primarni coding model, a dodatnih 39 % naginje prema “da”.
Kako funkcionira agentski post-training?
Uz arhitektonske promjene, DeepSeek je uveo interleaved thinking — lanac razmišljanja koji se zadržava preko granica korisničkih poruka u višekoračnim tool call tokovima. Bez alata model se ponaša klasično i briše reasoning pri svakoj novoj poruci.
Za tool pozive uveden je XML tool-call format s posebnim |DSML| tokenom. Primjer:
|DSML|
<tool_call>
<function_name>search</function_name>
<parameters>
<param name="query" string="true">vrijeme u Zagrebu</param>
</parameters>
</tool_call>
Prednost je smanjenje grešaka pri escapeanju ugniježđenih navodnika te razdvajanje stringovnih i strukturiranih parametara, što je tipičan problem JSON shema.
Što je DSec sandbox?
Za agentski reinforcement learning DeepSeek je izgradio DSec (DeepSeek Elastic Compute), Rust-baziranu infrastrukturu koja podržava četiri izvršna sloja: funkcijske pozive, kontejnere, microVM-ove (Firecracker) i pune VM-ove (QEMU). Sustav skalira do stotina tisuća paralelnih sandboxa i omogućuje “preemption-safe replay” — nastavak treninga bez ponovnog izvršavanja tool poziva.
Ova infrastruktura je razlog zašto V4 može biti treniran nad realnim tool okruženjima umjesto nad sintetičkim tragovima, što je primjetno u snazi na Toolathlon i MCPAtlas benchmarcima.
Kada stiže migracijski rok?
DeepSeek je paralelno objavio da će stari endpointi deepseek-chat i deepseek-reasoner biti u potpunosti ugašeni 24. srpnja 2026. u 15:59 UTC. Razvojni timovi koji koriste DeepSeek API imaju tri mjeseca za migraciju.
Nove verzije dostupne su u tri moda zaključivanja (non-think, think-high, think-max), a modeli su objavljeni u FP4 kvantizaciji za MoE experte i FP8 za ostatak, što dodatno smanjuje memorijske zahtjeve.
Za hrvatske razvojne timove koji žele self-hostati modele, V4-Flash je praktičnija opcija — 13 milijardi aktivnih parametara omogućuje inferenciju na standardnijem GPU hardveru nego što je to tražio V3.2.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate
Apple predstavio MANZANO — unificirani multimodalni model koji balansira razumijevanje i generiranje slika