🤖 24 AI
🔴 🤖 模型 2026年4月24日星期五 · 2 分钟阅读

DeepSeek发布V4-Pro和V4-Flash:百万令牌上下文开源模型,SWE Verified达80.6分

编辑插图:DeepSeek V4模型——百万令牌模块

为什么重要

DeepSeek于2026年4月24日发布了V4-Pro(1.6T/49B激活参数)和V4-Flash(284B/13B激活参数),两款支持百万令牌上下文的开源模型。V4-Pro在SWE Verified基准上达到80.6分,接近Opus 4.6,同时显著降低了内存消耗。

DeepSeek于2026年4月24日(周四)发布了V4系列的预览版本,包含两款开源权重模型:V4-Pro(1.6万亿总参数、490亿激活参数)和V4-Flash(2840亿总参数、130亿激活参数)。两款模型在所有官方服务中均默认支持百万令牌上下文

此次发布恰逢前沿模型的竞争重心,正从纯粹的基准分数转向长上下文效率和智能体工作流。DeepSeek已在Hugging Face Hub上发布了模型权重及配套技术报告。

V4全新架构带来了什么?

核心创新是混合注意力机制,结合了两种互补技术。其一是CSA(压缩稀疏注意力),通过学习位置方法将每四个令牌压缩为一个KV记录,再由FP4「闪电索引器」为每个查询选出最相关的压缩块。

其二是HCA(高压缩注意力),压缩率达128倍,对高度压缩的块采用密集MQA(多查询注意力),无需稀疏选择。两种技术均对最新令牌保留全注意力滑动窗口。

结果是KV缓存仅为标准GQA-8基准的2%。在百万令牌上下文下,V4-Pro仅消耗V3.2所需FLOPs的27%,V4-Flash更低至10%。

在实际任务中表现如何?

在衡量模型自主解决真实GitHub bug能力的SWE Verified基准上,V4-Pro-Max达到80.6%,与Anthropic的Opus 4.6-Max(80.8%)几乎持平。在衡量工具编排能力的Toolathlon上,V4-Pro以51.8分排名第一,领先Kimi K2.6的50.0分。

在包含PyTorch、CUDA、Rust和C++共30道题的内部基准上,V4-Pro-Max解决了67%的任务,略低于Opus 4.5(70%),但远超Sonnet 4.5(47%)。在对91名DeepSeek工程师的内部调查中,52%愿意更换主要编程模型,另有39%倾向于「是」。

智能体后训练如何运作?

除架构改进外,DeepSeek还引入了交错思维——在多步骤工具调用流程中跨用户消息边界保留思维链。无工具时,模型按经典方式运行,每条新消息时清除推理内容。

工具调用采用带有特殊|DSML|令牌的XML工具调用格式。示例:

|DSML|
<tool_call>
  <function_name>search</function_name>
  <parameters>
    <param name="query" string="true">萨格勒布天气</param>
  </parameters>
</tool_call>

其优势在于减少嵌套引号的转义错误,并分离字符串和结构化参数,这是JSON模式的典型痛点。

什么是DSec沙箱?

DeepSeek为智能体强化学习构建了DSec(DeepSeek弹性计算)——一套基于Rust的基础设施,支持四个执行层:函数调用、容器、微VM(Firecracker)和完整VM(QEMU)。系统可扩展至数十万个并行沙箱,并支持「可抢占安全重放」——无需重新执行工具调用即可恢复训练。

正是这套基础设施使V4能够在真实工具环境中训练,而非在合成轨迹上,这在Toolathlon和MCPAtlas基准的强劲表现中清晰可见。

迁移截止时间是什么?

DeepSeek同步宣布,旧端点**deepseek-chatdeepseek-reasoner将于2026年7月24日UTC时间15:59完全关闭**。使用DeepSeek API的开发团队有三个月时间完成迁移。

新版本提供三种推理模式(非思考、高思考、最大思考),模型以FP4量化MoE专家、FP8量化其余部分发布,进一步降低内存需求。

对于希望自托管模型的开发团队,V4-Flash是更实用的选择——130亿激活参数使其可在比V3.2更标准的GPU硬件上完成推理。

🤖

本文由人工智能基于一手来源生成。