Was ist der Unterschied zwischen V4-Pro und V4-Flash?

V4-Pro verfügt über 1,6 Billionen Gesamt- und 49 Milliarden aktive Parameter und zielt auf komplexe agentische Aufgaben ab. V4-Flash hat 284 Milliarden Gesamt- und 13 Milliarden aktive Parameter und bietet schnellere und günstigere Inferenz. Beide Modelle unterstützen einen Kontext von einer Million Token.

Welche Benchmark-Ergebnisse erzielt das V4-Pro-Modell?

V4-Pro erreicht 80,6 auf SWE Verified (nahe an Opus 4.6 mit 80,8), 67,9 auf Terminal Bench 2.0 und 73,6 auf MCPAtlas Public. Auf Toolathlon belegt es mit 51,8 den ersten Platz.

DeepSeek V4-Pro und V4-Flash: 1M Token, 80,6 SWE Verified

Q: Was passiert mit den deepseek-chat- und deepseek-reasoner-APIs?

DeepSeek hat angekündigt, dass die bestehenden API-Endpunkte deepseek-chat und deepseek-reasoner am 24. Juli 2026 um 15:59 UTC vollständig abgeschaltet werden. Nutzer müssen bis zu diesem Datum auf V4-Modelle migrieren.

DeepSeek veröffentlichte am Donnerstag, dem 24. April 2026, eine Vorschauversion der V4-Serie: zwei Open-Weight-Open-Source-Modelle — V4-Pro mit 1,6 Billionen Gesamt- und 49 Milliarden aktiven Parametern sowie V4-Flash mit 284 Milliarden Gesamt- und 13 Milliarden aktiven Parametern. Beide Modelle unterstützen standardmäßig eine Million Token Kontext über alle offiziellen Dienste hinweg.

Die Veröffentlichung kommt zu einem Zeitpunkt, an dem sich der Wettbewerb unter Frontier-Modellen von reinen Benchmark-Zahlen hin zu Effizienz bei langen Kontexten und agentischen Workflows verlagert. DeepSeek hat die Gewichte auf dem Hugging Face Hub sowie einen begleitenden technischen Bericht veröffentlicht.

Was bringt die neue V4-Architektur?

Die zentrale Innovation ist ein hybrides Attention-Mechanismus, der zwei komplementäre Techniken kombiniert. Die erste ist CSA (Compressed Sparse Attention), die jeweils vier Token mithilfe eines erlernten Positionsansatzes in einen einzigen KV-Eintrag komprimiert; ein FP4-„Lightning Indexer” wählt anschließend die top-k relevantesten komprimierten Blöcke pro Anfrage aus.

Die zweite ist HCA (Heavily Compressed Attention) mit einem Kompressionsverhältnis von 128×, die dichte MQA (Multi-Query Attention) über stark komprimierte Blöcke nutzt, ohne sparse Selektion zu benötigen. Beide Techniken behalten ein gleitendes Full-Attention-Fenster über die jüngsten Token bei.

Das Ergebnis ist ein KV-Cache von lediglich 2 % gegenüber der Standard-GQA-8-Baseline. Bei 1 Million Token Kontext verbraucht V4-Pro 27 % der FLOPs, die V3.2 benötigte, und V4-Flash lediglich 10 %.

Wie gut sind sie bei realen Aufgaben?

Auf dem SWE Verified-Benchmark, der die Fähigkeit des Modells misst, echte GitHub-Bugs autonom zu lösen, erreicht V4-Pro-Max 80,6 % — praktisch gleichauf mit Anthropics Opus 4.6-Max (80,8 %). Auf Toolathlon, der Tool-Orchestrierung misst, belegt V4-Pro mit 51,8 gegenüber 50,0 für Kimi K2.6 den ersten Platz.

In einem internen Benchmark mit 30 Aufgaben aus PyTorch, CUDA, Rust und C++ löst V4-Pro-Max 67 % der Aufgaben — knapp hinter Opus 4.5 (70 %) und deutlich vor Sonnet 4.5 (47 %). In einer internen Entwicklerumfrage unter 91 DeepSeek-Ingenieuren sind 52 % bereit, ihr primäres Coding-Modell zu wechseln, weitere 39 % tendieren zu „Ja”.

Wie funktioniert das agentische Post-Training?

Neben architektonischen Änderungen hat DeepSeek Interleaved Thinking eingeführt — eine Gedankenkette, die über Nachrichtengrenzen hinweg in mehrstufigen Tool-Call-Flows bestehen bleibt. Ohne Werkzeuge verhält sich das Modell klassisch und löscht sein Reasoning bei jeder neuen Nachricht.

Für Tool-Aufrufe wurde ein XML-Tool-Call-Format mit dem speziellen |DSML|-Token eingeführt. Beispiel:

|DSML|
<tool_call>
  <function_name>search</function_name>
  <parameters>
    <param name="query" string="true">Wetter in Zagreb</param>
  </parameters>
</tool_call>

Der Vorteil liegt in der Reduzierung von Escaping-Fehlern bei verschachtelten Anführungszeichen sowie der Trennung von String- und strukturierten Parametern — ein typisches Problem bei JSON-Schemas.

Was ist die DSec-Sandbox?

Für agentisches Reinforcement Learning hat DeepSeek DSec (DeepSeek Elastic Compute) entwickelt — eine Rust-basierte Infrastruktur, die vier Ausführungsebenen unterstützt: Funktionsaufrufe, Container, MicroVMs (Firecracker) und vollständige VMs (QEMU). Das System skaliert auf Hunderttausende parallele Sandboxes und ermöglicht „Preemption-Safe Replay” — die Fortsetzung des Trainings ohne erneute Ausführung von Tool-Aufrufen.

Diese Infrastruktur ist der Grund, warum V4 auf realen Tool-Umgebungen statt auf synthetischen Traces trainiert werden kann, was sich in der Stärke bei Toolathlon- und MCPAtlas-Benchmarks widerspiegelt.

Wann ist die Migrationsfrist?

DeepSeek gab gleichzeitig bekannt, dass die alten Endpunkte deepseek-chat und deepseek-reasoner am 24. Juli 2026 um 15:59 UTC vollständig abgeschaltet werden. Entwicklungsteams, die die DeepSeek-API nutzen, haben drei Monate Zeit für die Migration.

Die neuen Versionen sind in drei Reasoning-Modi verfügbar (non-think, think-high, think-max), und die Modelle werden in FP4-Quantisierung für MoE-Experten und FP8 für den Rest veröffentlicht, was den Speicherbedarf weiter reduziert.

Für Entwicklungsteams, die Self-Hosting in Betracht ziehen, ist V4-Flash die praktischere Option — 13 Milliarden aktive Parameter ermöglichen Inferenz auf standardmäßigerer GPU-Hardware als sie V3.2 erforderte.

DeepSeek veröffentlicht V4-Pro und V4-Flash: zwei Open-Source-Modelle mit einer Million Token Kontext und 80,6 auf SWE Verified

Was bringt die neue V4-Architektur?

Wie gut sind sie bei realen Aufgaben?

Wie funktioniert das agentische Post-Training?

Was ist die DSec-Sandbox?

Wann ist die Migrationsfrist?

Quellen

Verwandte Nachrichten