vLLM:开源推理引擎登顶 Artificial Analysis 排行榜榜首
vLLM 是一款开源推理引擎,凭借激进的核融合(每层从 33 降至 10 次启动,1.28× 加速)、自定义 EAGLE3 草稿模型推测解码以及线性注意力路径优化,在 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 三个前沿模型上夺得 Artificial Analysis 排行榜首位。
14 条新闻 — 🟡 11 值得关注 , 🟢 3 有趣
vLLM 是一款开源推理引擎,凭借激进的核融合(每层从 33 降至 10 次启动,1.28× 加速)、自定义 EAGLE3 草稿模型推测解码以及线性注意力路径优化,在 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 三个前沿模型上夺得 Artificial Analysis 排行榜首位。
论文 arXiv:2605.07776 研究大型语言模型推理链中的不确定性追踪。作者(Grünefeld、Højer、Mondorf、Plank、Rogers 等人)开发了「不确定性追踪概况」——一组紧凑特征,通过仅前几百个令牌即可预测准确结果,AUROC 达 0.807(仅用前段令牌时为 0.801)。
TMAS(测试时多智能体扩展)是一种新的测试时计算扩展方法,将LLM推理组织为具有层次化内存库的专业化智能体之间的协作。作者(加州大学伯克利分校+DeepMind)展示了在相同计算预算下,在MATH-500、AIME 2024、HumanEval和GPQA Diamond上超越所有现有基线方法(Best-of-N、MCTS、AutoTTS)的结果。该方法在单一流水线中结合了推理+检索+验证。
AWS Strands Agents SDK是一个用于构建自主AI智能体的开源框架,已与Exa深度集成。Exa是一款在语义层面索引网络的AI原生搜索引擎。智能体现在可以自主决定何时搜索网络、综合多个来源的报告并引用数据——无需构建自定义爬虫或抓取基础设施。该集成将启用网络搜索的智能体开发简化至十几行代码。
SocialReasoning-Bench 是微软研究院新发布的基准测试,衡量 AI 智能体在与其他方谈判时是否真正维护用户利益——而不仅仅是完成任务。结果显示模型几乎能完美达成交易,但在市场场景中始终将价值留给对方,90%+ 的结果被归类为低效或疏忽。
论文 arXiv:2605.07313 提出了规模条件评估协议,测试智能体记忆系统在无关数据积累时是否仍能正常运作。HippoRAG 损失 16-20 个百分点的预算合规可靠性,LiCoMemory 随模型大小而变化。作者(Shao、Lu、Zhang、Luo)得出结论:可靠性损失并非个别现象。
AMD Instinct MI355X 是数据中心 GPU,在已发布的基准测试中于三项 ComfyUI 生成工作流上超越 NVIDIA B200——文生视频 Wan2.2(1.44×)、文生图 FLUX.1-dev(1.42×)和 3D Hunyuan3D v2.1(1.20×)——得益于 AOTriton gfx950 内核、hipBLASLt GEMM 调优及 ROCm 7.2.0 中的其他优化。
NVIDIA Fleet Intelligence 是一项托管服务,可实时监控大型 NVIDIA 数据中心 GPU 机群——包括功耗、温度、性能和 ECC 错误——并通过 NVIDIA 远程证明服务(NRAS)进行加密 GPU 真实性验证。该服务对 Vera Rubin、Blackwell 和 Hopper GPU 所有者免费。
Claude Code v2.1.139 是 Anthropic CLI 智能体的新版本,处于研究预览阶段推出 Agent View——一个显示所有会话(活跃、阻塞、已完成)的统一列表——以及 /goal 命令,该命令驱动 Claude 跨多个步骤工作直至满足指定条件,并提供显示耗时、步骤数和令牌消耗的面板。
IBM今天宣布将Red Hat AI Inference Service和Red Hat OpenShift Virtualization Service作为托管企业产品在IBM Cloud上提供。前者为开源LLM(Granite、Llama、Mistral)提供优化的服务环境,具备自动扩展和SLA保障;后者允许在同一OpenShift控制平面中运行虚拟机和容器。目标:降低希望使用开源AI但不具备自有Kubernetes基础设施能力的企业团队的运营负担。
OpenAI周二启动了DeployCo(The Deployment Company),这是一个帮助企业在生产中构建和扩展AI应用程序的独立组织。目标:将基础模型研发与企业部署咨询分开,后者此前与OpenAI团队同处一地,造成了运营摩擦。DeployCo提供托管部署、自定义评估、上线后监控和行业特定微调服务。
AWS 上的 Claude Platform 是一项托管服务,允许通过现有 AWS 账户直接使用 Anthropic 平台,无需与 Anthropic 单独签订合同。AWS 是首家以正式可用状态提供原生访问的云服务商,使用 IAM 身份验证、CloudTrail 日志记录和 Marketplace 计费,覆盖 19 个以上区域。
OpenAI Q1 2026 报告是 ChatGPT 季度采用情况综述,显示增速最快的人口群体是 35 岁以上的用户。详细数据已在 OpenAI signals/research 页面发布,但直接 URL 目前返回 403,文章基于 2026 年 5 月 11 日发布的 RSS feed 描述。