2026年5月4日星期一

9 条新闻 — 🟡 6 值得关注 , 🟢 3 有趣

← 前一天 后一天 →

🤖 模型 (2)

🤝 智能体 (4)

🟡 🤝 智能体 2026年5月4日 · 2 分钟阅读

ArXiv AEM:多轮RL智能体的自适应熵调制在SWE-bench Verified上提升+1.4%

Editorial illustration: ArXiv AEM:多轮RL智能体的自适应熵调制在SWE-bench Verified上提升+1.4%

AEM(自适应熵调制)是一种无监督训练方法,通过动态调制多轮对话中的熵来改善强化学习中LLM智能体的探索与利用平衡。在1.5B到32B参数模型上测试,整合到最先进基线后在SWE-bench Verified基准上提升1.4%。

🟡 🤝 智能体 2026年5月4日 · 2 分钟阅读

ICML 2026 立场论文:30位作者认为智能体AI系统的编排必须符合贝叶斯一致性

Editorial illustration: ICML 2026 立场论文:30位作者认为智能体AI系统的编排必须符合贝叶斯一致性

来自学术和工业实验室的三十位研究人员发表了被ICML 2026接受的立场论文,认为智能体AI系统的控制层必须遵守贝叶斯一致性。作者认为LLM不适合在不确定性下做决策,但其上方的编排器可以且必须维护校准的信念并使用效用感知策略。

🟡 🤝 智能体 2026年5月4日 · 2 分钟阅读

ArXiv框架「是否调用」揭示LLM错误判断何时需要外部工具

Editorial illustration: ArXiv框架「是否调用」揭示LLM错误判断何时需要外部工具

马克斯·普朗克软件系统研究所等机构研究人员发布了一个框架,通过三个维度评估LLM智能体的工具调用决策:必要性、效益和成本可接受性。对六个模型和三个任务的实验表明,模型认为需要的工具与实际提高准确性的工具之间存在显著差距,这直接影响生产智能体的成本和可靠性。

🟢 🤝 智能体 2026年5月4日 · 2 分钟阅读

ArXiv:LLM智能体工具的隐性成本——「工具使用税」即使工具有帮助也会降低准确性

Editorial illustration: ArXiv:LLM智能体工具的隐性成本——工具使用税即使工具有帮助也会降低准确性

研究人员证明在LLM智能体中调用工具会引入隐性成本——所谓「工具使用税」——由调用格式和协议开销引起。通过因式干预框架分离三个成本组件,并引入G-STEP门控机制,在不改变模型的情况下部分缓解损失。

🏥 实践应用 (1)

🛡️ 安全 (2)

← 前一天 后一天 →