V4-Pro和V4-Flash有什么区别？

V4-Pro拥有1.6万亿总参数和490亿激活参数，面向复杂的智能体任务。V4-Flash拥有2840亿总参数和130亿激活参数，提供更快、更经济的推理服务。两款模型均支持百万令牌上下文。

deepseek-chat和deepseek-reasoner API会怎样？

DeepSeek宣布，现有的deepseek-chat和deepseek-reasoner API端点将于2026年7月24日UTC时间15:59完全下线。用户需在此日期前迁移至V4模型。

V4-Pro模型的基准测试结果如何？

V4-Pro在SWE Verified上达到80.6分（接近Opus 4.6的80.8分），Terminal Bench 2.0得67.9分，MCPAtlas Public得73.6分。在Toolathlon上以51.8分排名第一。

DeepSeek V4-Pro和V4-Flash：百万令牌，SWE Verified 80.6

DeepSeek于2026年4月24日（周四）发布了V4系列的预览版本，包含两款开源权重模型：V4-Pro（1.6万亿总参数、490亿激活参数）和V4-Flash（2840亿总参数、130亿激活参数）。两款模型在所有官方服务中均默认支持百万令牌上下文。

此次发布恰逢前沿模型的竞争重心，正从纯粹的基准分数转向长上下文效率和智能体工作流。DeepSeek已在Hugging Face Hub上发布了模型权重及配套技术报告。

V4全新架构带来了什么？

核心创新是混合注意力机制，结合了两种互补技术。其一是CSA（压缩稀疏注意力），通过学习位置方法将每四个令牌压缩为一个KV记录，再由FP4「闪电索引器」为每个查询选出最相关的压缩块。

其二是HCA（高压缩注意力），压缩率达128倍，对高度压缩的块采用密集MQA（多查询注意力），无需稀疏选择。两种技术均对最新令牌保留全注意力滑动窗口。

结果是KV缓存仅为标准GQA-8基准的2%。在百万令牌上下文下，V4-Pro仅消耗V3.2所需FLOPs的27%，V4-Flash更低至10%。

在实际任务中表现如何？

在衡量模型自主解决真实GitHub bug能力的SWE Verified基准上，V4-Pro-Max达到80.6%，与Anthropic的Opus 4.6-Max（80.8%）几乎持平。在衡量工具编排能力的Toolathlon上，V4-Pro以51.8分排名第一，领先Kimi K2.6的50.0分。

在包含PyTorch、CUDA、Rust和C++共30道题的内部基准上，V4-Pro-Max解决了67%的任务，略低于Opus 4.5（70%），但远超Sonnet 4.5（47%）。在对91名DeepSeek工程师的内部调查中，52%愿意更换主要编程模型，另有39%倾向于「是」。

智能体后训练如何运作？

除架构改进外，DeepSeek还引入了交错思维——在多步骤工具调用流程中跨用户消息边界保留思维链。无工具时，模型按经典方式运行，每条新消息时清除推理内容。

工具调用采用带有特殊|DSML|令牌的XML工具调用格式。示例：

|DSML|
<tool_call>
  <function_name>search</function_name>
  <parameters>
    <param name="query" string="true">萨格勒布天气</param>
  </parameters>
</tool_call>

其优势在于减少嵌套引号的转义错误，并分离字符串和结构化参数，这是JSON模式的典型痛点。

什么是DSec沙箱？

DeepSeek为智能体强化学习构建了DSec（DeepSeek弹性计算）——一套基于Rust的基础设施，支持四个执行层：函数调用、容器、微VM（Firecracker）和完整VM（QEMU）。系统可扩展至数十万个并行沙箱，并支持「可抢占安全重放」——无需重新执行工具调用即可恢复训练。

正是这套基础设施使V4能够在真实工具环境中训练，而非在合成轨迹上，这在Toolathlon和MCPAtlas基准的强劲表现中清晰可见。

迁移截止时间是什么？

DeepSeek同步宣布，旧端点**deepseek-chat和deepseek-reasoner将于2026年7月24日UTC时间15:59完全关闭**。使用DeepSeek API的开发团队有三个月时间完成迁移。

新版本提供三种推理模式（非思考、高思考、最大思考），模型以FP4量化MoE专家、FP8量化其余部分发布，进一步降低内存需求。

对于希望自托管模型的开发团队，V4-Flash是更实用的选择——130亿激活参数使其可在比V3.2更标准的GPU硬件上完成推理。

DeepSeek发布V4-Pro和V4-Flash：百万令牌上下文开源模型，SWE Verified达80.6分

V4全新架构带来了什么？

在实际任务中表现如何？

智能体后训练如何运作？

什么是DSec沙箱？

迁移截止时间是什么？

来源

相关新闻