DeepSeek发布V4-Pro和V4-Flash:百万令牌上下文开源模型,SWE Verified达80.6分
DeepSeek于2026年4月24日发布了V4-Pro(1.6T/49B激活参数)和V4-Flash(284B/13B激活参数),两款支持百万令牌上下文的开源模型。V4-Pro在SWE Verified基准上达到80.6分,接近Opus 4.6,同时显著降低了内存消耗。
15 条新闻 — 🔴 2 重要 , 🟡 8 值得关注 , 🟢 5 有趣
DeepSeek于2026年4月24日发布了V4-Pro(1.6T/49B激活参数)和V4-Flash(284B/13B激活参数),两款支持百万令牌上下文的开源模型。V4-Pro在SWE Verified基准上达到80.6分,接近Opus 4.6,同时显著降低了内存消耗。
OpenAI于2026年4月23日发布了GPT-5.5,将其描述为迄今最智能的模型。该模型面向编程、研究和通过工具进行数据分析等复杂任务。随模型同步发布了System Card和专项生物安全漏洞赏金计划。
Zhao等人的团队在ACL 2026工业赛道发表论文,提出从大量探索中提炼可复用推理技能。模型无需从头思考,而是检索相关模式,从而减少推理令牌数量并提升编程和数学任务的准确率。
Google DeepMind发布了Decoupled DiLoCo,一种用于AI模型训练的分布式架构。它将8个数据中心之间所需的网络带宽从198 Gbps降至0.84 Gbps,同时在高故障率场景下将吞吐量从27%提升至88%。
vLLM与DeepSeek同日发布了V4-Pro和V4-Flash模型的完整集成,相比V3.2在百万令牌上下文下KV缓存减少8.7倍。稀疏注意力与积极压缩的结合,使标准GPU硬件上的模型服务成为可能。
Allen人工智能研究所发布了OlmoEarth Studio,提供三种规模的模型(Nano、Tiny、Base)用于卫星图像嵌入向量。这些模型仅凭60个标注像素便可实现地景分割F1得分0.84,同时支持变化检测与PCA可视化。
Anthropic已将Claude Managed Agents的记忆功能推送至公开测试版。智能体现在可以在会话间保存用户偏好、项目规范和上下文信息。测试版限制包括每个组织最多1000个存储库,每个存储库最多100 MB。
GitHub推出了直接从issues和项目视图追踪和管理云端智能体会话的功能。会话徽章、带进度日志的侧边面板以及项目视图中自动激活的会话,标志着自主AI智能体与开发流程的深度融合。
Anthropic与日本NEC于2026年4月24日签署合作协议,Claude将面向约3万名NEC员工开放。NEC成为Anthropic首个日本全球合作伙伴,并将建立AI工程卓越中心,覆盖金融、制造、网络安全和地方政务领域。
AWS发布了多模态生物学基础模型在药物开发和患者护理中应用的综合综述。通过结合基因组学、医学影像和临床数据,AUC精度提升4-7%,图像分析节省高达90%的时间,药物开发成本降低高达50%。
CNCF博客发布了一个案例研究,展示AI智能体如何将60余个Kubernetes资源从Ingress NGINX迁移至Higress,包含验证在内仅用30分钟。Higress是基于Envoy和Istio的AI原生网关,具备针对LLM流量的令牌速率限制和缓存功能。
GitHub在Copilot Chat中增加了三项拉取请求功能:通过评论和审查理解PR、结构化审查以及变更摘要。这些功能可在github.com/copilot访问,也可直接在差异视图中点击Copilot按钮使用。