AdaMeZO:以类Adam方式微调LLM,无需在GPU内存中存储动量
AdaMeZO是一种零阶优化器,将Adam算法的优势与MeZO的内存高效性相结合,用于大语言模型微调。仅使用前向传播,相比MeZO减少最多70%的传播次数,同时提升收敛性。
9 条新闻 — 🟡 6 值得关注 , 🟢 3 有趣
AEM(自适应熵调制)是一种无监督训练方法,通过动态调制多轮对话中的熵来改善强化学习中LLM智能体的探索与利用平衡。在1.5B到32B参数模型上测试,整合到最先进基线后在SWE-bench Verified基准上提升1.4%。
来自学术和工业实验室的三十位研究人员发表了被ICML 2026接受的立场论文,认为智能体AI系统的控制层必须遵守贝叶斯一致性。作者认为LLM不适合在不确定性下做决策,但其上方的编排器可以且必须维护校准的信念并使用效用感知策略。
马克斯·普朗克软件系统研究所等机构研究人员发布了一个框架,通过三个维度评估LLM智能体的工具调用决策:必要性、效益和成本可接受性。对六个模型和三个任务的实验表明,模型认为需要的工具与实际提高准确性的工具之间存在显著差距,这直接影响生产智能体的成本和可靠性。
研究人员证明在LLM智能体中调用工具会引入隐性成本——所谓「工具使用税」——由调用格式和协议开销引起。通过因式干预框架分离三个成本组件,并引入G-STEP门控机制,在不改变模型的情况下部分缓解损失。
弗吉尼亚理工大学研究人员发布ARMOR 2025,这是首个根据战争法、交战规则和联合伦理法规对LLM进行安全性评估的基准。包含519个教义提示词,测试21个商业模型,揭示了现有安全评估在军事应用方面的严重不足。
KAIST和NAVER Cloud团队提出了Stable-GFlowNet(S-GFN),这是一种自动化LLM红队测试的新方法,消除了分区函数Z的估计,并使用成对比较实现稳定学习。该论文获得ICML 2026 Spotlight标签——不足5%的录用论文获此殊荣——解决了GFlowNet的长期问题:噪声奖励下的训练不稳定和模式崩溃。