2026年5月18日星期一

11 条新闻 — 🟡 5 值得关注 , 🟢 6 有趣

← 前一天 后一天 →

🤖 模型 (1)

📦 开源 (6)

🟡 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15041 CAST 框架:基于案例的 LLM 工具使用校准在 BFCLv2 上提升5.85个百分点,推理长度减少26%

Editorial illustration: LLM agent s case library prikazom i tool call validation indicators.

CAST 是2026年5月14日发布于 arXiv 的论文,作者为 Renning Pang、Tian Lan、Leyuan Liu、Piao Tong、Sheng Cao 和 Xiaosong Zhang,提出了用于 LLM 工具使用的基于案例的校准框架。该方法将历史执行轨迹视为强化学习的结构化信息——在 BFCLv2 基线上实现了最高5.85个百分点的执行准确率提升,并将平均推理长度减少了26%。

🟢 📦 开源 2026年5月18日 · 3 分钟阅读

arXiv:2605.15706 可微分智能体混合:动态路由智能体激活在9个基准测试中达SOTA

Editorial illustration: neural network routing graf s LLM agentima i sparse activation indicator-ima.

可微分智能体混合(Differentiable Mixture-of-Agents)是由Xingjian Wu、Junkai Lu、Siyu Yan、Xiangfei Qiu、Jilin Hu、Chenjuan Guo和Bin Yang于2026年5月15日发布的arXiv论文,提出了一种用于多智能体LLM协作的可微分路由机制。系统在推理步骤中动态选择并激活智能体,取代固定拓扑结构,在9个基准测试中达到SOTA,并通过预测熵自监督实现无需外部标注的测试时自适应。

🟢 📦 开源 2026年5月18日 · 3 分钟阅读

arXiv:2605.15100 双维度一致性:在五项基准测试中将token消耗减少10倍同时保持准确性

Editorial illustration: paralelni reasoning paths s confidence score badge-ovima i pruning ikonom.

双维度一致性是2026年5月14日发布于 arXiv 的论文,作者为 Rongman Xu、Yifei Li、Tianzhe Zhao、Yanrui Wu、Bo Li 和 Hang Yan,旨在解决推理时扩展效率问题。该框架结合了置信度加权贝叶斯协议和趋势感知分层剪枝——在五项基准测试中,与强基线相比,token消耗减少逾10倍,同时保持或提升了准确性。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15015 小型私有语言模型:在教育评估设计中取得有竞争力的结果,并建议采用人机协作方式

Editorial illustration: učionica scena s small LM ikonama, Bloom's taxonomy piramidom i human reviewer prikazom.

《小型私有语言模型作为教育评估设计的团队成员》是2026年5月14日发布于 arXiv 的论文,作者为 Chris Davis Jaldi、Anmol Saini、Shan Zhang、Noah Schroeder、Cogan Shimizu 和 Eleni Ilkou。在生成符合教学法的评估问题方面,对小型模型与大型替代方案进行了系统比较——小型模型取得了有竞争力的结果,同时具备隐私优势,但作者强调模型评估显示出系统性不一致,并建议采用人机协作方式。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15109 遍历上下文:智能体 GraphRAG 必须记录已访问但未引用的实体以实现真正的溯源

Editorial illustration: knowledge graph s istaknutim traversal pathom i citation badge anotacijama uz uncited node-ove.

《邻域为何重要》是2026年5月14日发布于 arXiv 的论文,作者为 Riccardo Terrenzi、Maximilian von Zastrow 和 Serkan Ayvaz(已被 IJCAI-ECAI 2026 GENAIK 和 NORA 联合工作坊接收)。作者认为,智能体 GraphRAG 系统必须将引用忠实度视为轨迹层面的问题——真正的溯源不仅涵盖被引证据,还包括影响模型推理的已访问但未引用的实体。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

xAI SDK Python v1.13.0:prepare_extension() 为系列生成视频片段提供批量视频扩展支持

Editorial illustration: serija video frameova s batch processing ikonom i xAI SDK kod snippet vizualizacijom.

xAI SDK Python v1.13.0 于2026年5月16日发布(提交者 @double-di,PR #141),新增了用于批量视频扩展的 prepare_extension() 方法。该功能在 v1.10.0 引入的视频 API 基础上增加了批处理能力——开发者现在可以在一次调用中为一系列视频片段准备扩展参数,而无需为每个片段单独依次处理。

🤝 智能体 (3)

🟡 🤝 智能体 2026年5月18日 · 3 分钟阅读

arXiv:2605.16217 Argus:深度研究智能体的证据汇编架构,8路并行搜索器提升12.7个百分点

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argus是由Zhen Zhang、Liangcai Su、Zhuo Chen等研究者于2026年5月15日发布的arXiv论文,提出了面向深度研究智能体的证据汇编框架。该系统采用双智能体架构——搜索器(ReAct风格轨迹)+导航器(共享证据图+强化学习合成)——单搜索器提升5.5个百分点,8路并行提升12.7个百分点,64路并行在BrowseComp上达到86.2分,且不超出上下文窗口限制。

🟡 🤝 智能体 2026年5月18日 · 2 分钟阅读

GitHub Copilot:Grok Code Fast 1 于2026年5月15日弃用;推荐替代方案为 GPT-5 mini 和 Claude Haiku 4.5

Editorial illustration: deprecated stamp na xAI Grok ikoni s arrows prema GPT-5 mini i Claude Haiku 4.5 logosima.

GitHub 于2026年5月15日正式宣布在所有 Copilot 体验(聊天、内联编辑、问答、代理模式、代码补全)中弃用 Grok Code Fast 1 模型。此次弃用发生在5月8日宣布后的一周。推荐替代方案:GPT-5 mini 和 Claude Haiku 4.5——均可通过标准模型策略获得。企业管理员需通过 Copilot 设置启用替代方案。

🟢 🤝 智能体 2026年5月18日 · 3 分钟阅读

Databricks + Veeva Vault CRM:面向生命科学商业工作流的三款专业AI智能体

Editorial illustration: pharma sales rep s tablet i AI agent overlay s patient data dashboard.

Databricks于2026年5月18日宣布与Veeva Systems深化合作,将Genie AI智能体直接集成到面向生命科学行业的Vault CRM工作流中。三款专业智能体角色——销售代表智能体、医学科学联络员(MSL)智能体和区域经理智能体——通过Unity Catalog治理访问Databricks数据湖仓。此次发布先于2026年5月19日至20日在波士顿举办的Veeva商业峰会。

🛡️ 安全 (1)

← 前一天 后一天 →