2026年5月4日星期一

9 条新闻 — 🟡 6 值得关注 , 🟢 3 有趣

← 前一天后一天 →

🤖 模型 (2)

🟢 🤖 模型 2026年5月4日 · 1 分钟阅读

AdaMeZO：以类Adam方式微调LLM，无需在GPU内存中存储动量

AdaMeZO是一种零阶优化器，将Adam算法的优势与MeZO的内存高效性相结合，用于大语言模型微调。仅使用前向传播，相比MeZO减少最多70%的传播次数，同时提升收敛性。

🟢 🤖 模型 2026年5月4日 · 1 分钟阅读

BWLA：1位量化LLM实现3.26倍加速和70%更好结果（ACL 2026）

BWLA是一个新的大型语言模型训练后量化框架，首次在不显著损失精度的情况下同时实现1位权重精度和低位激活。在Qwen3-32B模型上实现困惑度11.92，与现有方法相比推理速度提升3.26倍。

🤝 智能体 (4)

🟡 🤝 智能体 2026年5月4日 · 2 分钟阅读

ArXiv AEM：多轮RL智能体的自适应熵调制在SWE-bench Verified上提升+1.4%

AEM（自适应熵调制）是一种无监督训练方法，通过动态调制多轮对话中的熵来改善强化学习中LLM智能体的探索与利用平衡。在1.5B到32B参数模型上测试，整合到最先进基线后在SWE-bench Verified基准上提升1.4%。

🟡 🤝 智能体 2026年5月4日 · 2 分钟阅读

ICML 2026 立场论文：30位作者认为智能体AI系统的编排必须符合贝叶斯一致性

来自学术和工业实验室的三十位研究人员发表了被ICML 2026接受的立场论文，认为智能体AI系统的控制层必须遵守贝叶斯一致性。作者认为LLM不适合在不确定性下做决策，但其上方的编排器可以且必须维护校准的信念并使用效用感知策略。

🟡 🤝 智能体 2026年5月4日 · 2 分钟阅读

ArXiv框架「是否调用」揭示LLM错误判断何时需要外部工具

马克斯·普朗克软件系统研究所等机构研究人员发布了一个框架，通过三个维度评估LLM智能体的工具调用决策：必要性、效益和成本可接受性。对六个模型和三个任务的实验表明，模型认为需要的工具与实际提高准确性的工具之间存在显著差距，这直接影响生产智能体的成本和可靠性。

🟢 🤝 智能体 2026年5月4日 · 2 分钟阅读

ArXiv：LLM智能体工具的隐性成本——「工具使用税」即使工具有帮助也会降低准确性

研究人员证明在LLM智能体中调用工具会引入隐性成本——所谓「工具使用税」——由调用格式和协议开销引起。通过因式干预框架分离三个成本组件，并引入G-STEP门控机制，在不改变模型的情况下部分缓解损失。

🏥 实践应用 (1)

🟡 🏥 实践应用 2026年5月4日 · 2 分钟阅读

IBM研究：76%的组织有首席AI官，CEO预计到2030年48%的运营决策将由AI自主作出

IBM商业价值研究院发布了对33个国家2000名CEO的研究，显示首席AI官职位在一年内从26%扩展到76%的组织。CEO预计到2030年，AI系统将无需人工干预地作出48%的运营决策，这重新定义了整个C级管理层的结构。

🛡️ 安全 (2)

🟡 🛡️ 安全 2026年5月4日 · 2 分钟阅读

ArXiv ARMOR 2025：519个提示词测试21个商业LLM的军事安全性基准

弗吉尼亚理工大学研究人员发布ARMOR 2025，这是首个根据战争法、交战规则和联合伦理法规对LLM进行安全性评估的基准。包含519个教义提示词，测试21个商业模型，揭示了现有安全评估在军事应用方面的严重不足。

🟡 🛡️ 安全 2026年5月4日 · 2 分钟阅读

ICML 2026 Spotlight：Stable-GFlowNet引入更稳定、更多样化的LLM自动化红队测试

KAIST和NAVER Cloud团队提出了Stable-GFlowNet（S-GFN），这是一种自动化LLM红队测试的新方法，消除了分区函数Z的估计，并使用成对比较实现稳定学习。该论文获得ICML 2026 Spotlight标签——不足5%的录用论文获此殊荣——解决了GFlowNet的长期问题：噪声奖励下的训练不稳定和模式崩溃。

← 前一天后一天 →