2026年5月18日星期一

11 条新闻 — 🟡 5 值得关注 , 🟢 6 有趣

🤖 模型 (1)

🟡 🤖 模型 2026年5月18日 · 2 分钟阅读

GitHub Copilot：GPT-5.3-Codex成为Business和Enterprise基础模型，享有12个月LTS保障

GitHub于2026年5月17日宣布，GPT-5.3-Codex取代GPT-4.1，成为Copilot Business和Enterprise的基础模型。此次变更仅适用于企业级套餐（不含Copilot Pro、Pro+或Free）。GPT-5.3-Codex是首个LTS（长期支持）模型——保障从2026年2月5日至2027年2月4日共12个月的可用性。定价方面：1×高级请求乘数；GPT-4.1在2026年6月1日弃用前继续以0×乘数强制启用。

📦 开源 (6)

🟡 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15041 CAST 框架：基于案例的 LLM 工具使用校准在 BFCLv2 上提升5.85个百分点，推理长度减少26%

Editorial illustration: LLM agent s case library prikazom i tool call validation indicators.

CAST 是2026年5月14日发布于 arXiv 的论文，作者为 Renning Pang、Tian Lan、Leyuan Liu、Piao Tong、Sheng Cao 和 Xiaosong Zhang，提出了用于 LLM 工具使用的基于案例的校准框架。该方法将历史执行轨迹视为强化学习的结构化信息——在 BFCLv2 基线上实现了最高5.85个百分点的执行准确率提升，并将平均推理长度减少了26%。

🟢 📦 开源 2026年5月18日 · 3 分钟阅读

arXiv:2605.15706 可微分智能体混合：动态路由智能体激活在9个基准测试中达SOTA

Editorial illustration: neural network routing graf s LLM agentima i sparse activation indicator-ima.

可微分智能体混合（Differentiable Mixture-of-Agents）是由Xingjian Wu、Junkai Lu、Siyu Yan、Xiangfei Qiu、Jilin Hu、Chenjuan Guo和Bin Yang于2026年5月15日发布的arXiv论文，提出了一种用于多智能体LLM协作的可微分路由机制。系统在推理步骤中动态选择并激活智能体，取代固定拓扑结构，在9个基准测试中达到SOTA，并通过预测熵自监督实现无需外部标注的测试时自适应。

🟢 📦 开源 2026年5月18日 · 3 分钟阅读

arXiv:2605.15100 双维度一致性：在五项基准测试中将token消耗减少10倍同时保持准确性

Editorial illustration: paralelni reasoning paths s confidence score badge-ovima i pruning ikonom.

双维度一致性是2026年5月14日发布于 arXiv 的论文，作者为 Rongman Xu、Yifei Li、Tianzhe Zhao、Yanrui Wu、Bo Li 和 Hang Yan，旨在解决推理时扩展效率问题。该框架结合了置信度加权贝叶斯协议和趋势感知分层剪枝——在五项基准测试中，与强基线相比，token消耗减少逾10倍，同时保持或提升了准确性。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15015 小型私有语言模型：在教育评估设计中取得有竞争力的结果，并建议采用人机协作方式

Editorial illustration: učionica scena s small LM ikonama, Bloom's taxonomy piramidom i human reviewer prikazom.

《小型私有语言模型作为教育评估设计的团队成员》是2026年5月14日发布于 arXiv 的论文，作者为 Chris Davis Jaldi、Anmol Saini、Shan Zhang、Noah Schroeder、Cogan Shimizu 和 Eleni Ilkou。在生成符合教学法的评估问题方面，对小型模型与大型替代方案进行了系统比较——小型模型取得了有竞争力的结果，同时具备隐私优势，但作者强调模型评估显示出系统性不一致，并建议采用人机协作方式。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15109 遍历上下文：智能体 GraphRAG 必须记录已访问但未引用的实体以实现真正的溯源

Editorial illustration: knowledge graph s istaknutim traversal pathom i citation badge anotacijama uz uncited node-ove.

《邻域为何重要》是2026年5月14日发布于 arXiv 的论文，作者为 Riccardo Terrenzi、Maximilian von Zastrow 和 Serkan Ayvaz（已被 IJCAI-ECAI 2026 GENAIK 和 NORA 联合工作坊接收）。作者认为，智能体 GraphRAG 系统必须将引用忠实度视为轨迹层面的问题——真正的溯源不仅涵盖被引证据，还包括影响模型推理的已访问但未引用的实体。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

xAI SDK Python v1.13.0：prepare_extension() 为系列生成视频片段提供批量视频扩展支持

Editorial illustration: serija video frameova s batch processing ikonom i xAI SDK kod snippet vizualizacijom.

xAI SDK Python v1.13.0 于2026年5月16日发布（提交者 @double-di，PR #141），新增了用于批量视频扩展的 prepare_extension() 方法。该功能在 v1.10.0 引入的视频 API 基础上增加了批处理能力——开发者现在可以在一次调用中为一系列视频片段准备扩展参数，而无需为每个片段单独依次处理。

🤝 智能体 (3)

🟡 🤝 智能体 2026年5月18日 · 3 分钟阅读

arXiv:2605.16217 Argus：深度研究智能体的证据汇编架构，8路并行搜索器提升12.7个百分点

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argus是由Zhen Zhang、Liangcai Su、Zhuo Chen等研究者于2026年5月15日发布的arXiv论文，提出了面向深度研究智能体的证据汇编框架。该系统采用双智能体架构——搜索器（ReAct风格轨迹）+导航器（共享证据图+强化学习合成）——单搜索器提升5.5个百分点，8路并行提升12.7个百分点，64路并行在BrowseComp上达到86.2分，且不超出上下文窗口限制。

🟡 🤝 智能体 2026年5月18日 · 2 分钟阅读

GitHub Copilot：Grok Code Fast 1 于2026年5月15日弃用；推荐替代方案为 GPT-5 mini 和 Claude Haiku 4.5

Editorial illustration: deprecated stamp na xAI Grok ikoni s arrows prema GPT-5 mini i Claude Haiku 4.5 logosima.

GitHub 于2026年5月15日正式宣布在所有 Copilot 体验（聊天、内联编辑、问答、代理模式、代码补全）中弃用 Grok Code Fast 1 模型。此次弃用发生在5月8日宣布后的一周。推荐替代方案：GPT-5 mini 和 Claude Haiku 4.5——均可通过标准模型策略获得。企业管理员需通过 Copilot 设置启用替代方案。

🟢 🤝 智能体 2026年5月18日 · 3 分钟阅读

Databricks + Veeva Vault CRM：面向生命科学商业工作流的三款专业AI智能体

Editorial illustration: pharma sales rep s tablet i AI agent overlay s patient data dashboard.

Databricks于2026年5月18日宣布与Veeva Systems深化合作，将Genie AI智能体直接集成到面向生命科学行业的Vault CRM工作流中。三款专业智能体角色——销售代表智能体、医学科学联络员（MSL）智能体和区域经理智能体——通过Unity Catalog治理访问Databricks数据湖仓。此次发布先于2026年5月19日至20日在波士顿举办的Veeva商业峰会。

🛡️ 安全 (1)

🟡 🛡️ 安全 2026年5月18日 · 3 分钟阅读

arXiv:2605.15338 休眠记忆投毒：通过LLM智能体持久化记忆对GPT-5.5的攻击成功率达99.8%

Editorial illustration: LLM agent memory store s dormantnim adversarial token-ima i wake-up trigger ikone.

「Hidden in Memory」是由Sidharth Pulipaka、Stanislau Hlebik、Leonidas Raghav、Sahar Abdelnabi、Vyas Raina、Ivaxi Sheth和Mario Fritz于2026年5月14日发布的arXiv论文，提出了针对有状态LLM智能体的延迟执行攻击。外部上下文（文档、网页）中的对抗性内容破坏智能体的持久化记忆——对GPT-5.5的成功率高达99.8%，对Kimi-K2.6达95%，被投毒记忆触发攻击者预期行为的概率为60%至89%。

← 前一天后一天 →